《方差、协方差与相关系数.doc》由会员分享,可在线阅读,更多相关《方差、协方差与相关系数.doc(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流方差、协方差与相关系数.精品文档.一、方差例1 例1 比较甲乙两人的射击技术,已知两人每次击中环数分布为:.问哪一个技术较好?首先看两人平均击中环数,此时,从均值来看无法分辩孰优孰劣. 但从直观上看,甲基本上稳定在8环左右,而乙却一会儿击中10环,一会儿击中6环,较不稳定.因此从直观上可以讲甲的射击技术较好.上例说明:对一随机变量,除考虑它的平均取值外,还要考虑它取值的离散程度.称-为随机变量对于均值的离差(deviation),它是一随机变量. 为了给出一个描述离散程度的数值,考虑用,但由于=0对一切随机变量均成立,即的离差正负相消,因此用
2、是不恰当的. 我们改用描述取值的离散程度,这就是方差.定义1 若存在,为有限值,就称它是随机变量的方差(variance),记作Var,Var= (1)但Var的量纲与不同,为了统一量纲,有时用,称为的标准差(standard deviation).方差是随机变量函数的数学期望,由1的(5)式,即可写出方差的计算公式 Var= (2)进一步,注意到即有 Var=. (3)许多情况,用(3)式计算方差较方便些.例1(续) 计算例1中的方差Var与Var.解 利用(3)式 =0.1+0.8+0.1=64.2, Var=64.2-=0.2.同理, Var= 65.2-64 = 1.2 Var, 所以
3、取值较分散. 这说明甲的射击技术较好.例2 试计算泊松分布P()的方差.解 所以Var.例3 设服从 a, b 上的均匀分布U a, b,求Var.解 , Var.例4 设服从正态分布,求Var.解 此时用公式(2),由于,Var可见正态分布中参数就是它的方差, 就是标准差.方差也有若干简单而重要的性质. 先介绍一个不等式.切贝雪夫(Chebyshev)不等式 若随机变量的方差存在,则对任意给定的正数,恒有.(4)证 设的分布函数为,则这就得(4)式.切贝雪夫不等式无论从证明方法上还是从结论上都有一定意义. 事实上,该式断言落在与内的概率小于等于/,或者说,落在区间内的概率大于1-/,从而只用
4、数学期望和方差就可对上述概率进行估计. 例如,取=3,则0.89.当然这个估计还是比较粗糙的(当时,在第二章曾经指出, P(|-|3)=P(|-|3)0.997 ).性质1 =0 的充要条件是P(=c) =1,其中c是常数.证 显然条件充分. 反之,如果= 0,记= c, 由切贝雪夫不等式, P(|- |)=0对一切正数成立. 从而性质2 设c,b都是常数,则 Var(+b)=. (5) 证 Var(+b)=E(+b-E(+b)=E(+b-c-b性质3 若, 则.证 因 =E-, 而 E(-c=E-2c+,两边相减得.这说明随机变量对数学期望的离散度最小.性质4 =+2 (6)特别若两两独立,
5、则 =. (7) 证 Var(=E(-E(=E = E =+2,得证(6)式成立. 当两两独立时,对任何有,故E=E(=E=0,这就得证(7)式成立.利用这些性质,可简化某些随机变量方差的计算.例5 设服从二项分布B(n, p), 求.解 如1例12构造, 它们相互独立同分布,此时 Var=pq.由于相互独立必是两两独立的,由性质4例6 例6 设随机变量相互独立同分布, , Var=,(). 记=, 求,.解 由1性质2和本节性质2和4有这说明在独立同分布时,作为各的算术平均,它的数学期望与各的数学期望相同,但方差只有的1/ n倍. 这一事实在数理统计中有重要意义.例7 设随机变量的期望与方差
6、都存在,. 令称它为随机变量的标准化. 求与Var.解 由均值与方差的性质可知二、协方差数学期望和方差反映了随机变量的分布特征. 对于随机向量, 除去各分量的期望和方差外,还有表示各分量间相互关系的数字特征协方差.定义2 记和的联合分布函数为. 若,就称 (8)为的协方差( covariance),记作Cov().显然, .公式(6)可改写为Var()+2. 容易验证,协方差有如下性质:性质1 Cov() = Cov(). 性质2 设是常数,则性质3 . 对于n维随机向量=,可写出它的协方差阵,(9)其中.由性质1可知B是一个对称阵,且对任何实数, 二次型即随机向量的协方差阵B是非负定的.性质
7、4 设= ,C =,则的协方差阵为,其中B是的协方差阵.因为,所以的第元素就是的第i元素与第j元素的协方差.三、相关系数协方差虽在某种意义上表示了两个随机变量间的关系,但的取值大小与,的量纲有关. 为避免这一点,用,的标准化随机变量(见例7)来讨论.定义3 称 (10)为, 的相关系数(correlation coefficient).为了讨论相关系数的意义,先看一个重要的不等式.柯西许瓦茨(CauchySchwarz)不等式 对任意随机变量, 有 . (11)等式成立当且仅当存在常数使 . (12)证 对任意实数是的二次非负多项式,所以它的判别式证得(11)式成立. (11)式中等式成立当且
8、仅当多项式有重根,即又由(3)故得,同时有. 所以由方差的性质1就证得,此即 (12)式.由此即可得相关系数的一个重要性质.性质1 对相关系数有.(13)=1当且仅当=-1当且仅当.(14)证 由(11)式得证得(13)式成立. 证明第二个结论. 由定义. 由柯西-许瓦兹不等式的证明可知, 等价于=有重根=因此由(12)式得当且仅当;当且仅当.注 性质1表明相关系数时,与以概率1存在着线性关系. 另一个极端是= 0,此时我们称与不相关(uncorrected).性质2 对随机变量和, 下列事实等价:(1) Cov(,)=0;(2) 与不相关;(3) ; (4) .证 显然(1)与(2)等价.
9、又由协方差的性质1得(1)与(3)等价. 再由式,得(1)与(4)等价.性质3 若与独立,则与不相关.显然, 由与独立知(3)成立,从而与不相关. 但其逆不真.例8 设随机变量服从均匀分布U 0, ,=,显然, 故与不独立. 但故,即与不相关.注 性质2不能推广到个随机变量情形. 事实上从个随机变量两两不相关只能推得,不能推得. 反之,从这两个等式也不能推得两两不相关. 具体例子不列出了. 对于性质3, 在正态分布情形,独立与不相关是一致的,这将在下面进行讨论.例9 设(,)服从二元正态分布, 试求和.解 令, , 则,于是= 0+r.故得这就是说二元正态分布中参数r就是,的相关系数. 所以对
10、二元正态分布,、不相关等价于r = 0. 但在第二章已证与相互独立等价于r = 0. 这样我们有性质4 对二元正态分布,两个分量不相关与相互独立是等价的.四、矩矩(moment)是最广泛的一种数字特征,常用的矩有两种,一种是原点矩, 对正整数,称为的阶原点矩. 数学期望就是一阶原点矩.另一种是中心矩, 对正整数,称为的阶中心矩. 方差是二阶中心矩.除此以外,三阶与四阶中心矩也是常用的,它们分别表示随机变量的性状. 往往用他们的相对值. 称为偏态系数,当它大于0时为正偏态,小于0时则为负偏态. 称为峰态系数,当它大于0时表明该分布密度比正态分布更为尖峭.例10 设为服从正态分布N ()的随机变量,此时,且特别 .故不论为多少,正态分布的偏态系数与峰态系数都为0. 我们可以用原点矩来表示中心矩:反过来,我们也可以用中心矩来表示原点矩:我们也定义阶绝对矩 其中是实数.对于例10中的随机变量利用上述结果,可以求出其他某些分布的矩. 如瑞利分布, 具有密度,那么因此,特别,. 因此,方差. 再如,马克斯威尔分布具有密度,那么因此,特别,. 例11. 如果服从参数为的指数分布,那么 对于,根据递推关系得即指数分布的任意阶矩存在.