注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

HappyFranc

把数据转化成智慧,并执行之

 
 
 

日志

 
 

协方差矩阵  

2009-09-01 17:14:56|  分类: 统计基础知识 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

转自:http://hi.baidu.com/vandyliu/blog/item/6df48b4a73aa00f883025c1e.html

协方差是衡量两个随机变量的相关程度。当然我们可以把它扩展到衡量两个事物的相关程度

变量说明:

协方差矩阵 - HappyFranc - HappyFranc为一组随机变量,这些随机变量构成随机向量协方差矩阵 - HappyFranc - HappyFranc协方差矩阵 - HappyFranc - HappyFranc协方差矩阵 - HappyFranc - HappyFranc协方差矩阵 - HappyFranc - HappyFranc ,每个随机变量有m个样本,则有样本矩阵

               协方差矩阵 - HappyFranc - HappyFranc                                            1

其中 协方差矩阵 - HappyFranc - HappyFranc对应着每个随机向量X的样本向量, 协方差矩阵 - HappyFranc - HappyFranc对应着第i个随机单变量的所有样本值构成的向量。

单随机变量间的协方差:

随机变量协方差矩阵 - HappyFranc - HappyFranc 之间的协方差可以表示为

           协方差矩阵 - HappyFranc - HappyFranc                                                        2

根据已知的样本值可以得到协方差的估计值如下:

                协方差矩阵 - HappyFranc - HappyFranc                                           3

可以进一步地简化为:

                           协方差矩阵 - HappyFranc - HappyFranc4

协方差矩阵:

协方差矩阵 - HappyFranc - HappyFranc  

                        协方差矩阵 - HappyFranc - HappyFranc 5

其中协方差矩阵 - HappyFranc - HappyFranc 从而得到了协方差矩阵表达式。

如果所有样本的均值为一个零向量,则式(5)可以表达成:

协方差矩阵 - HappyFranc - HappyFranc    6

补充说明:

1、协方差矩阵中的每一个元素是表示的随机向量X的不同分量之间的协方差,而不是不同样本之间的协方差,如元素Cij就是反映的随机变量Xi, Xj的协方差

2、协方差是反映的变量之间的二阶统计特性,如果随机向量的不同分量之间的相关性很小,则所得的协方差矩阵几乎是一个对角矩阵。对于一些特殊的应用场合,为了使随机向量的长度较小,可以采用主成分分析的方法,使变换之后的变量的协方差矩阵完全是一个对角矩阵,之后就可以舍弃一些能量较小的分量了(对角线上的元素反映的是方差,也就是交流能量)。特别是在模式识别领域,当模式向量的维数过高时会影响识别系统的泛化性能,经常需要做这样的处理

3、必须注意的是,这里所得到的式(5)和式(6)给出的只是随机向量协方差矩阵真实值的一个估计(即由所测的样本的值来表示的,随着样本取值的不同会发生变化),故而所得的协方差矩阵是依赖于采样样本的,并且样本的数目越多,样本在总体中的覆盖面越广,则所得的协方差矩阵越可靠。

4、如同协方差和相关系数的关系一样,我们有时为了能够更直观地知道随机向量的不同分量之间的相关性究竟有多大,还会引入相关系数矩阵。


概率论统计学中,相关或称相关系数关联系数,显示两个随机变量之间线性关系的强度和方向。在统计学中,相关的意义是用来衡量两个变量相对于其相互独立的距离。在这个广义的定义下,有许多根据数据特点而定义的用来衡量数据相关的系数。

对于不同数据特点,可以使用不同的系数。最常用的是皮尔逊积差相关系数。其定义是两个变量协方差除以两个变量的标准差(方差)。

皮尔逊积差系数

数学特征

rho_{X,Y}={mathrm{cov}(X,Y) over sigma_X sigma_Y} ={E((X-mu_X)(Y-mu_Y)) over sigma_Xsigma_Y},

其中,E数学期望,cov表示协方差

因为μX = E(X)σX2 = E(X2) ? E2(X),同样地,对于Y,可以写成

rho_{X,Y}=frac{E(XY)-E(X)E(Y)}{sqrt{E(X^2)-E^2(X)}~sqrt{E(Y^2)-E^2(Y)}}.

当两个变量的标准差都不为零,相关系数才有定义。从柯西—施瓦茨不等式可知,相关系数不超过1. 当两个变量的线性关系增强时,相关系数趋于1或-1。当一个变量增加而另一变量也增加时,相关系数大于0。当一个变量的增加而另一变量减少时,相关系数小于0。当两个变量独立时,相关系数为0.但反之并不成立。 这是因为相关系数仅仅反映了两个变量之间是否线性相关。比如说,X是区间[-1,1]上的一个均匀分布的随机变量。Y = X2. 那么Y是完全由X确定。因此YX是不独立的。但是相关系数为0。或者说他们是不相关的。当YX服从联合正态分布时,其相互独立和不相关是等价的。

当一个或两个变量带有测量误差时,他们的相关性就受到削弱,这时,“反衰减”性(disattenuation)是一个更准确的系数。

协方差矩阵 - HappyFranc - HappyFranc

例    (1).
    假如X是A事物表述出来的特征,Y是B事物表述出来的特征:
    X=[1 2 3                     Y=[2 5 7
         4 5 6                          9 8 1
         7 8 9];                        6 4 3];

    好!next step:
    (2).
    取X、Y列的平均值:mx=[4 5 6]   my=[5.7 5.7 3.7]
   
    (3).
    将Y转置 Y=Y';

    (4).
    计算:
    X1=X-mx; Y1=Y-my; //X、Y中的每个元素都减去平均值

    (5).
    协方差矩阵:C=1/3*(X1*Y1);
    协方差:cov(X1,Y1)=tr(C);

  评论这张
 
阅读(998)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017