哈尔滨工业大学-多元统计分析-数学建模必备-葛虹ppt课件.ppt

上传人:飞****2 文档编号:31782843 上传时间:2022-08-08 格式:PPT 页数:120 大小:1.39MB
返回 下载 相关 举报
哈尔滨工业大学-多元统计分析-数学建模必备-葛虹ppt课件.ppt_第1页
第1页 / 共120页
哈尔滨工业大学-多元统计分析-数学建模必备-葛虹ppt课件.ppt_第2页
第2页 / 共120页
点击查看更多>>
资源描述

《哈尔滨工业大学-多元统计分析-数学建模必备-葛虹ppt课件.ppt》由会员分享,可在线阅读,更多相关《哈尔滨工业大学-多元统计分析-数学建模必备-葛虹ppt课件.ppt(120页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、多多 元元 统统 计计 分分 析析哈尔滨工业大学数学系 葛 虹多元统计分析内容简介n第一章 多元统计的基本概念n第二章 主成分分析n第三章 聚类分析n第四章 多元正态分布n第五章 多元回归分析第一章 多元统计的基本概念 第一节 随机向量 及其数字特征随机向量极其分布P维随机向量: 联合分布函数: 联合密度函数:),(21pXXX),(),(221121pppxXxXxXPxxxF 12212121212121),(),() 3 (1),() 2(0),() 1 (x xxpppppppdxdxdxxxxfxxxFdxdxdxxxxfxxxf特征函数一元随机变量 :二元随机向量 : :P元随机向

2、量例例1 1其它0, 0; 0;),(21)(2121xxcexxfxx)()(itXeEt X),(21XX)()(),(221121Xt iXitXiteEeEtt)()(),(221121Xt iXitXitXitpeEeEtttpp),(21pXXX条件分布与独立性两随机向量间的条件分布 的D.F: ; d.f ; c.f 的D.F: ; d.f ;c.f 的D.F: ; d.f ;c.f 给定 , 的条件密度函数:)2() 1 (),(1)1(qXX ),(1)2(pqXX),(1pxxF),(1pxxf),(1ptt )1()2(),(11qxxF),(12pqxxF),(11qx

3、xf),(12pqxxf),(11qtt ),(12pqtt),(),()(121)2()1(1pqpxxfxxfxxf)2()1()1(两随机向量独立的充分必要条件 与 相互独立)1()2(21FFF21fff21)()() 1 (1)2() 1 (1xfxxf随机向量的数字特征随机向量的数学期望随机向量的方差阵 ) )(,),(),()(21pXEXEXEE),cov(),cov(),cov(),cov(),cov(),cov(),cov(),cov(),cov()()(212221212111ppppppXXXXXXXXXXXXXXXXXXEEED两随机向量间的协方差阵随机向量的相关系数

4、阵),cov(),cov(),cov(),cov(),cov(),cov(),cov(),cov(),cov()(),(212221212111ppppppYXYXYXYXYXYXYXYXYXEYYEXXEYXCOV11121212121,XXXXXXXXXXXXppppR)()(),cov(,jijiXXXDXDXXji随机向量的数字特征的计算性质 对称,非负定; CBAECBAE)()()()()(YBEXAEBYAXE)(),(DCOVBYXACOVBYAXCOV),(),(AXADAXDBAXD)()()(, )()()()( ,)COV X YE XYEXEYCOV Y X例2求:其

5、它01,01),(2121xxxxf),() 1 (21xxF)(),() 2(2211xFxF)(),() 3(2211xfxf是否独立?与21)4(XX)()5(21xxf第二节 随机向量的样本 及其数字特征P维随机样本 P维随机向量 的一个容量为n的样本:),(21pXXXpnnnppxxxxxxxxx212221212111, 的样本1X 的样本 的样本2XpX样本均值pnnnppxxxxxxxxx212221212111,nipiniiniipxnxnxnXXX1121121111样本离差阵与样本方差阵nippiniippiniippinippiiniiniiinippiiniiin

6、iiXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxS12122111122122211122111122111211)()()()()()()()()(SnV1样本离差阵样本方差阵样本相关系数阵1)()()()()()()()()(1)()()()()()()()()(122222221121122222221122211222211112222112211XxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxRippiippiippiippippiippiiiiiippiippiiiiii与 的样本相关系数1XpX作 业 一1 令 (1

7、)求c;(2)求 ;(3)证明: ;(4) 是否相互独立? 其它0;),(222kyxcyxfDXEXEX,20)(XYEYX,2 设三个随机变量x,y,z的联合密度函数为:(1)求常数k;(2)x,y,z是否相互独立?(3)试求在给定y=1/2 ,z=1的条件下x的分布。其它030 ; 1,0),(2zyxkxyzzyxf3 设随机向量 的协方差阵为:(1)求相关系数阵;(2)令 , ,求 的协方差阵。),(321XXXX9232443416321132XXXY321242XXXY313XXY),(321YYYY实验报告一实验报告一选择一组多维有意义的数据编写SAS数据文件利用SAS作单变量

8、的置方图,计算基本统计特征(均值、方差或标准差)并由此分析单变量的基本分布情况利用SAS计算多维随机变量的样本协方差阵、样本相关系数阵并由此分析变量之间的相关性要求打印 SAS数据文件 置方图 计算结果 分析结果第二章 主成分分析第一节 为什么要进行主成分分析消除自变量间的相关性与多维变量降维 满足(1) (2)pppppppppppXuXuXuXuXuXuXuXuXuYYYXXX2211222212112121112121)()()(21pYDYDYD0),(jiYYCOVpji, 2 , 1,第二节 数学模型与理论主成分前提条件: 目标:寻找正交矩阵 使 (1) (2) 且结论: 是 的特

9、征值; 的行向量分别为相应的特征向量;)(XE)(XDUUXY pYD21)(p21p,21U理论主成分的计算过程求非负定阵 的特征值:求 所对应的单位特征向量:写出主成分:)(XDp21p,21pppppppuuuuuuuuuuuu21222212112111,ppuYuYuY,2211第三节 样本主成分的计算过程首先将原始数据标准化得到标准化数据(消除量纲影响);求标准化数据的样本协方差阵 (该矩阵是原样本数据的样本相关系数阵) ;求 的特征值 和所对应的单位特征向量:RRp21puuu,21写出p个主成分的表达式: 是样本均值, 是样本标准差ppppsxxusxxusxxuy122212

10、111111ppppsxxusxxusxxuy222222111212ppppppppsxxusxxusxxuy22221111pxxx,21psss,21选择主成分的方法贡献率:第i 个主成分的贡献率为累积贡献率:前m 个主成分的累积贡献率为选择法则: 保留m 个主成分pjjiir1mmrrr21%90%80m第四节 主成分的应用利用第一主成分进行综合评价 若第一主成分满足:(1) 其中(2)第一主成分的贡献率 ,则 可以作为一个综合评价指标ppppsxxusxxusxxuy1222121111110,11211puuu%801rppxaxaxacy22111利用第一、二个主成分进行分类若第

11、一、二个主成分的累积贡献率 ,则由第一、二个主成分在平面上的散点图,可以对样品进行分类。%802ppxaxaxacy121211111ppxaxaxacy222212122实验二 主成分分析选取一组有意义的P维数据利用SAS的“交互数据分析”对P维变量进行主成分分析,并选择主成分进行排序与分类。要求说明:1)主成分选择原理 2)所选择主成分的表达式 3)最后的排序与分类结果。第三章 聚类分析第一节 p维空间中的距离欧氏距离马氏距离B模距离 明氏距离)()(),(2jijijiXXXXXXd)()(),(12jijijiXXSXXXXd)()(),(12jijijiXXBXXXXdqqpkkjk

12、iijxxqd11)()()()(),(12XXSXXGXd一点到总体的马氏距离第二节 聚类方法简介问题:将n个p维样本分成m个类系统聚类法与聚类步骤流程图动态聚类法与聚类步骤流程图系统聚类法与聚类步骤流程图初始分类: ;,2211nnxGxGxGnk 若 与 距离最小,合并为一类iGjG1 nkmk no输出分类结果yes动态聚类法与聚类步骤流程图寻找m个凝聚点:imiixxx,21若 则 ;得),(min),(1ijlmjiklxxdxxd0klGx 00201,mGGG计算各类的重心:mxxx,21若 则 ;得),(min),(1jlmjklxxdxxdklGx mGGG,21计算各类的

13、重心:mxxx,21重心改变输出分类结果yesno第三节 五种系统聚类(cluster)方法最短距离法(method=single)最长距离法(method=complete)重心法(method=centroid)),(min),(,jiGXGXqpXXdGGdqjpi),(max),(,jiGXGXqpXXdGGdqjpi),(),(qpqpXXdGGd类平均法(method=average)离差平方和法(method=ward) piqjGXGXjiqpqpXXdnnGGd),(1),(22qpqpqpSSSGGd),(2pnipippippXXXXS1)()(qniqiqqiqqXXX

14、XS1)()(qpnniqpqipqpqipqpXXXXS1)()(可以证明:半偏)()(),(2qpqpqpqpqpqpqpXXXXnnnnSSSGGd2RTotalqpqpSSSSR2niiiTotalXXXXS1)()(第四节 系统聚类在SAS中的实现proc cluster data=city method=ward outtree=DD;Var x1-x8;id region;proc tree data=DD horizontal graphics;id region;title tree of cluster;run;实验三 聚类分析选取一组有实际意义的数据利用SAS的五种系统聚

15、类方法将n个样本进行分类,要求:1)说明每一种方法的分类结果2)利用主成分分析说明哪一种分类结果更合理),(21piiixxxni, 2 , 1第四章 多元正态分布第一节 多元正态分布第二节 多元正态分布的函数-卡方分布第三节 多元正态分布的参数估计第四节 WISHART分布第五节 正态分布均值向量的假设检验一元正态分布一元正态分布密度函数形式特征函数形式一般正态与标准正态之间的关系多个正态变量的线性组合仍为正态变量第一节 多元正态分布定义1 q维标准正态分布 设 独立同分布于 ,则称随机向量 服从q 维正态分布,记 密度函数: 特征函数: qYYY,21) 1 , 0(N),(21qYYYY

16、),(qqNY)21exp()2(1)(21exp)2(1),(222221221yyyyyyyyfqqqqY)21exp()(21exp),(2222121t tttttttqqY定义2 p 维一般正态分布 设 ,B为 实数矩阵, 为 维实数向量,则 是 维随机正态分布,记为: 其中 为非负定阵。),(qqNYqpp11qqppYBXp),(ppNXBB 定理1 若 服从 ,则 (1) , (2)X),(pNEXDX)21exp()(ttt itp 定理2 若 服从 (1)令 , 为 , 为 则 服从 (利用特征函数证明) (2) 服从X),(pNbAXZZ),(AAbANrAprb1rcX

17、),(2ccNp定理3 若 服从 ,(1) 服从 , 服从 ;(2) 与 相互独立 (简化成 服从 , 服从 的情形,通过特征函数证明)推论:若 不服从正态分布,则 不服从正态分)2() 1 (XXX),(22211211)2()1(pN)1(X),(11) 1 (qN)2(X),(22) 2(qpN)1(X)2(X12)1(X),(11qN)2(X),(22qpN)1(X)2() 1 (XXX用于验证定理4 服从 为一元正态随机变量定理5 若 为正定矩阵,则 服从 具有密度函数(证明要点: , )X),(pNpRLXLX),(pNX )()(21exp)2(1),;(1212xxxfp用于验

18、证)()(2121YX)(21多元正态分布的四个等价定义 其中 为一元正态随机变量 特征函数 密度函数),(ppNX11qqppYBX),(qqNYpRLXL)21exp()(ttt itp)()(21exp)2(1),;(1212xxxfp0多用于验证多用于证明第二节 多元正态分布的函数-卡方分布定义1 中心 分布与矩阵表达设 独立同分布于 ,则若记 ,且 则2pXXX,21) 1 , 0(N212ppiiX),(21pXXXX),(ppNX2pXX定义2 非中心 分布与矩阵表达设 ,且 ,则 服从自由度为p,非中心参数为的卡方分布,并记为:2),(21pXXXX),(ppNX22pXXXX

19、2定理1 若 服从 ,且 正定,则 (1) 服从 ,其中 (2) 服从X),(pNXX1 22p12 )()(1XX2p用于构造检验统计量并检验异常点定理2 设 服从 , 服从 且相互独立,则 服从 定理3 设 服从 , 为 阶实对称阵且 ,则 服从 其中(对称幂等阵的性质:1. I-A是对称幂等的;2.A的特征值是1或0;3. R(A)=tr(A)1Z2Z2121p2222p21ZZ 2221221ppX),(ppINApprArank)(AXX22rAA 2A 2证明要点: 若A是对称幂等的,则存在正交矩阵Q 使 若 服从 A是非负定阵 存在一个矩阵 ,R(B)=r,且QIQArAXX 2

20、2rprBBBA定理4 (Cochran定理)已知 (1) 服从 (2) 为 阶实对称阵;且 (3) 则 服从 与 服从 且相互独立 (要点: )X),(ppINXAXXAXXX2121, AApp11)(rArank22)(rArankXAX1XAX22121r2222rprr21)()()()()(212121ARARpAtrAtrItrAAIpp定理5 设(1)(2) , (3) 非负定则 且与 相互独立1Z2Z21ZZZZ21p2p2Z21pp1Z作业二(1)若 服从(1)求 的分布,其中:(2)X中有无相互独立的分量?(3) 的分布是什么?若 服从 ,A与B分别是 和 阶实矩阵,证明

21、:AX与BX相互独立 X),(ppINpqprBAY), 0(22INBYX 111001B) 32, 1, 2(31132XXXXX一元正态样本及其性质设 是来自 的一个样本样本均值是总体均值的无偏估计,即 ;样本方差是总体方差的无偏估计,即 ;nXXX,21),(2NniiXnX11)(XEniiXXns122)(1122)(sE 与 分别是 和 的极大似然估计其中 与 相互独立XniiMXXns122)(122Ms)1,(2nNX 11221222122)(11niiniinYXXsnsnX2s) 1 , 0(NYi第三节 多元正态分布的参数估计定理1 若 为正定矩阵且 ,则 为 的极大

22、似然估计,即 定理2 当 时, 的极大似然估计是pn)1,(SnX),(0)(10)(10)(iniiXXnX)(1)(1)(XXXXninii定理3 与 分别是 和 的无偏估计,即定理4 若 和 分别是正态总体 的样本均值和样本离差阵,则 (1) 与 相互独立XSn11)(XE)11(SnEXS),( pNXS(2) ; 与 同分布 其中 独立同分布于(3) 定理5 若 为正定矩阵,则 X)1,(nNpS)(11)(iniiZZ) 1()2() 1 (,nZZZ),(pN1)(SPpn)()(1XXn2p可作为检验统计量可作为检验统计量?第四节 WISHART分布定义1 随机矩阵的分布定义2

23、 (Wishart分布)设服从且相互独立,则称随机矩阵服从中心Wishart 分布,并记为 结论 结论分布是Wishart分布的特例)(iX),(pNniiiXXW1)()(W),(nWp11)()(niiiZZS), 1(nWp2WISHART分布的性质性质1 若 , 且相互独立,则 性质2 若(1) 且 独立同分布于 (2) 是秩为r的实对称阵,则 1W),(1mWp2W),(2mWp21WW ),(21mmWPnpnXXX),()()2()1()()2()1(,nXXX),(pNnnAA),(rWpAA 2性质3 (Cochran定理)若 (1) 且 独立同分布于 (2) 为 阶实对称阵

24、;且 (3) 则 服从 与 服从 且相互独立 npnXXX),()()2()1()()2()1(,nXXX),(pN21, AAnn11)(rArank22)(rArank21AAnrr211A2A),(1rWp),(2rWp性质4 若 (1) (2) 为非奇异阵,则 ),(nWpWppCWCC),(CCnWp 一元正态总体参数的假设检验设 来自总体 第一步:建立零假设 第二步:寻找检验统计量及其在 下的分布第三步:依据小概率原理建立检验准则 由于 ,故若 ,则拒绝零假设nXXX,21) 1 ,(N0:0H) 1 , 0(NXnU)(2uXnP2uXn0H不应含有未知数不应含有未知数设 来自总

25、体 第一步:建立零假设 第二步:寻找检验统计量及其在 下的分布第三步:依据小概率原理建立检验准则 若 则拒绝零假设 nXXX,21),(2N0:0H1ntsXnT)2(1ntsXn0HXsXnT122)(XsXnT122)(服从正态分布服从正态分布服从卡方分布服从卡方分布XWXnT12服从多元正态分布服从多元正态分布服从服从Wishart分布分布推广推广服从服从1, 1nF第五节 正态分布均值向量的假设检验Hotelling 分布 定义 设 , 且相互独立,则 结论1 分布是t分布的推广结论2 独立同分布于 则 2TX),(pNW),(nWpXWXnT12),(2nTp2T)()2()1(,n

26、XXX),(pN)()(1(1XSXnn), 1(2nTp分布与 分布之间的关系定理 若 和 是 的样本均值和样本方差阵,记 = 则 2TXS),(pN2T)()(1(1XSXnn22) 1() 1() 1() 1(TpnpnTpnpn),(pnpF), 1(2nTp2T)()()()()()() 1(111XSXXXXXnn2p2pnF单一总体均值向量的检验 零假设 : 已知时,检验统计量及其分布是: 未知时,检验统计量是: = 且 0H0)()(0102XXn2p2T)()(1(010XSXnn2) 1(Tpnpn),(pnpF两个正态总体均值向量的检验零假设 :情形1 i.i.d于 i.

27、i.d于(1) 正定且已知时,检验统计量极其分布(2) 正定且未知时,检验统计量极其分布0H21)()2()1(,nXXX),(1pN)()2()1(,mYYY),(2pN21)()(pYXYXmnnm1,1)()()(1pmnpYXFYXSSYXmnnmppmn相互独立相互独立情形2 i.i.d于 i.i.d于 检验统计量极其分布(1)构造新样本:(2)构造统计量:)()2()1(,nXXX)()2()1(,nYYY),(11pN),(22pN21), 0(21)()()(piiiNYXZ), 0(21pNZn), 1(21nWSpZ相互独立相互独立相互独立相互独立), 1() 1(2121

28、2nTZSZnnTpZpnpZFZSZppnn,1)(作业二(2)若 服从 ,且 其中 为 , 为 阶的实矩阵, 证明: 服从 i.i.d于 i.i.d于其中 已知且两样本相互独立,推导检验 : 的检验统计量极其分布X),(pNbAXZZ),(AAbANrAprb1r)()2()1(,nXXX)()2()1(,nYYY),(11pN),(22pN210H21(1) i.i.d于 (2)C为已知 阶实矩阵且秩为kp 推导检验零假设 : 的检验统计量和它的分布;拒绝和接受零假设的检验法则是什么?)()2()1(,nXXX),(pNpk0CC0H实验四选择两组有意义的一维样本检验零假设:说明:(1)

29、这个检验的前提假设是什么(2)写出检验统计量的具体表达形式及利用SAS的“分析员应用”计算的统计量值(3)在什么水平下接受或拒绝了零假设 mnyyyxxx,.,;,.,2121210:H第五章 多元回归分析第一节 为什么要建立线性模型第二节 一元回归模型的建立第三节 一元回归模型的显著性检验第四节 一元回归模型的诊断第五节 曲线回归第六节 多元回归模型的建立第七节 多元回归模型与系数的显著性检验第八节 多重共线性第一节 为什么要建立线性模型线性模型简单、易分析相关性意味着线性性许多常用函数经过变换可以化为线性函数,如 一般函数可以通过Tayer公式局部线性化xbay11)ln(xbaybaxy

30、 bxaey xbaey xbeay1第二节 一元回归模型的建立观察由n个样本 构成的散点图或计算样本相关系数,若呈现明显的相关性,建立数学模型 其中 是未知参数,需要利用样本对它们进行估计 ),( ,),(),(2211nnyxyxyxxy10), 0(2N210,参数 的最小二乘估计极其矩阵表达 模型1 最小二乘解:10,), 0(. .,22110Ndi ixyniiiniiniiixxyyxxxy021110)()(矩阵偏导数与样本矩阵表达nyyyY21nxxxX1112121n21AxxAxx2uxxu模型2 最小二乘解:(1) 为y关于x的回归方程 (2)称 为方程的回归系数( )

31、(3)称 为残差, 为残差向量(4)称 为残差平方和),(),(22nnnnXNYNXYYXXX1)(xy10),(10iiiyy)()(YYYYSEYYXY xyxy10ixiyiy iiiiixyyy10 与 的性质性质1 性质2 ,且 即 的无偏估计是1.2. 3. 由 ES)(,(122XXN2ES22n2)2(nSEE2) 2(2nSEAYYYXXXXIYYYYYSE)()()(1AXXXXIA12)(),(nnIXNY)(22)(2ARES性质3 与 相互独立1. 2.3. 验证 与 相互独立即可。 一个结论: 服从 ,AX与BX相互独立ES)()()()(11YXXXXIYXXX

32、XIYYYYSEYXXX1)(YXXXXI)(1YXXX1)(X),(ppINBA第三节 一元回归模型的显著性检验总平方和分解决定系数法TETRSSSSR12TESSnnRAdj2112222)()()(iiiiyyyyyyERTSSS总平方和总平方和回归平方和回归平方和残差平方和残差平方和方差分析法零假设检验统计量的确定定理 在零假设下 (1) 在 下0:10H2TS21n),(. .20Ndi iyi0:10H212222)() 1(niyyysn含义?含义?(2) 且与 相互独立(3)检验统计量 2RS212ES)2(nSSFER)2, 1 (nF222/ERTSSSSSS21n22n2

33、1方差分析表 Analysis of VariancesourcedfSSMSFErrorTotalModel12n1nRSSESSTOTSSRSS) 2( nSSE)2( nSSSSER第四节 一元回归模型的诊断前提假设: 应进行如下诊断: (1) 的独立性 (2) 的等方差性 (3) 的正态性),0(.2Ndiiiiii误差的估计:残差)(10iiiiixyyyni,2, 1ie iy 残差图残差图(独立、等方差独立、等方差)由残差检验“ 相互独立,等方差”n,21残差不独立残差不独立异方差异方差由残差检验 的正态性(Q-Q图))(i), 0(2Nthni1)2(2nSE的的分位数分位数理

34、论分位数理论分位数样本分位数样本分位数(1)分布函数与分位数 设随机变量X的分布函数为 ,若 ,则称 是 的上侧 分位数或 的 下侧分位数 .此时有:)(xF)(xXPxF1)(xFx)(xXPF1F的的 上侧分位数上侧分位数F的的 下侧分位数下侧分位数11)(xXP(2)样本分布函数 设 为一组样本,将它们按大小序排列: ,于是样本分布函数为:nxxx,.,21)()2()1(.nxxx)() 1()() 1 (10)(nkknxxxxxnkxxxF)() 1()() 1 () 1() 1(0)(nkknxxnnxxxnkxxxF(3) 的样本分位数 将 按大小序排列: 它的样本分布函数为:

35、 于是, 的 下侧分位数分别是:n,21)()2()1(.n)()1()()1() 1() 1(0)(nkknxnnxnkxxF1,12,11nnnnnF)()2()1(,.,n样本分位数样本分位数(4) 的理论分位数 由 其中 的 理论下侧分位数可以通过查标准正态分布表得到: 若 确实服从 ), 0(2N)2(2nSE), 0(2N1,12,11nnnn)1()1(2()1(1(,nnnnxxx)(1)()1()(niinxFniFFFn)1()(niix), 0(2N理论分位数理论分位数(5)Q-Q图)(i)1()(n)1(1(nx)1(nix)1(nnx实验五 建立一元回归模型选取一组有

36、意义的数据 说明x与y之间具有较强的相关性 利用SAS的“交互数据分析” 建立回归方程,并进行如下说明:1.方程的显著性如何?哪些量能反映这一点?2.方程的前提假设是否满足?如何判定?),( ,),(),(2211nnyxyxyx第五节 曲线回归 在实际中,y与x之间的关系不一定是线性关系,这大致有两种情况:根据专业知识知道y与x之间的关系,但其中含有未知参数,须通过实验数据加以确定; 如细菌总数y与时间x之间的关系为: 投入为K,L,产出为y且规模报酬不变下的生产函数为:xey0AXYLKALy)(通过所收集的n组 ,从所画的散点图发现y关于x的某种曲线关系.此时,需要我们选择适当的曲线拟合

37、这些数据.例:由于钢液及炉渣对耐火材料的腐蚀,炼钢厂用的钢包容积不断增大.经试验得到钢包的溶剂y与相应使用次数x的数据.找出y与x之间的数量关系.),(iiyx由散点图的形状决定拟合如下三个模型: xy110 xyln0 xy1)100ln(0第六节 多元回归模型的建立模型 基本形式: 样本表达: 矩阵表达:ppxxxy22110), 0(2N), 0(. .,22122110Ndi ixxxyniippiii),(),(22nnnnXNYNXY参数 和 的估计2参数 的最小二乘估计是参数 的无偏估计是其中 是残差平方和YXXX1)(2) 1(2pnSE)()(YYYYSE与 的性质ES性质1

38、 性质2 性质3 与 相互独立)(,(121XXNp2ES21pnES性质4 若 (1) (2) 且与 相互独立(3) 021p2TS21n2RS2pES) 1(pnSpSFER) 1,( pnpF第七节 多元回归模型显著性检验(1)决定系数法方差分析法 零假设: 检验统计量与其分布: TETRSSSSR12TESSpnnRAdj11120:210pH) 1(pnSpSFER) 1,( pnpF含义含义?第七节 回归系数的显著性检验(2)零假设 检验统计量与其分布: 其中 是 的第j+1个对角元0:0jjHjSpnScTjEjjj) 1() 1( pntjjc1)(XX含义含义?第八节 多重共

39、线性什么是多重共线性 若p个自变量 在某种程度上是线性相关的多重共线性可以造成参数的估计值严重偏离实际值 一个解释 : 的共线性使 接近奇异阵,从而使 中的对角分量或 的方差很大。pxxx,21)(,(121XXNppxxx,21XX 1)(XXi随机模拟方法多重共线性对参数估计影响的例 原线性模型: 的观测值:正态随机数:由模型得到: 回归模型:213210 xxy),(21xx)5 . 2 , 4 . 2(),4 . 2 , 3 . 2(),1 . 2 , 0 . 2(),8 . 1 , 9 . 1 (),8 . 1 , 8 . 1 (),9 . 1 , 8 . 1 (),7 . 1 ,

40、7 . 1 (),8 . 1 , 7 . 1 (),5 . 1 , 4 . 1 (),1 . 1 , 1 . 1 (5 . 0, 5 . 1, 6 . 0 , 9 . 1 , 9 . 1 , 2 . 0 , 5 . 0, 4 . 0 , 5 . 0, 8 . 00 .22, 3 .20, 9 .20, 1 .21, 9 .20, 5 .19, 0 .18, 2 .19, 8 .16, 3 .16Y215907. 63073.112924.11xxy多重共线性的判定方法1 相关系数法 若自变量间的相关系数1 ,则相应的两个变量之间有较强的共线性。方法2 方差膨胀系数法( ) 若 是把第j个自变量

41、看作因变量,用其余p-1个变量作线性回归所得到的决定系数,则第j个自变量的方差膨胀系数为:ijr2jR211jjRVIFpj, 2 , 1105或VIF克服多重共线性的方法 主成分回归对 进行主成分分析前m个主成分的累积贡献率足够大建立 与 的回归模型pxxx,211012121111uxuxuxuypp2022221212uxuxuxuypp02211mpmpmmmuxuxuxuyymyyy,21随机模拟例的主成分回归结果 第一主成分的贡献率为0.993 y关于第一主成分的回归模型为:最后的整理结果为:41. 086. 17071. 038. 081. 17071. 0211xxy11674

42、. 15 .19yy210133. 21723. 28234.11xxy岭回归 岭回归是一种改进的最小二乘法.系数 的岭估计为: 即岭估计是参数的有偏估计 k在一定的范围内时, 的均方误差小于 的均方误差,即YXkIXXkpr11)()(10 k)(kEr)(kr)()()()(EkkErrk值的确定 (1) 相对稳定(利用岭迹图) (2)各系数的岭估计值有实际意义 逐步回归 这是一种从大量可能有关的变量中挑选出对因变量有显著影响的部分变量的方法。这样可以保证最后所得到的子集中所有变量都是显著的。)(kr实验六 建立多元回归模型),;(21piiiixxxyni, 2 , 1选取一组有意义的数

43、据 利用SAS的“交互数据分析” 建立回归方程,并进行如下说明:1)方程和回归系数的显著性如何,如何判定?2)方程的前提假设是否满足?如何判定?3)多重共线性如何,你认为最后可用的回归 方程是哪一个?总复习多元正态分布均值、协方差阵以及相关系数阵的计算多元正态分布的四种等价定义多元正态分布总体参数的估计多元正态分布均值的假设检验多元正态分布与 分布之间的关系2回归分析线性回归模型及前提假设参数最小二乘估计的矩阵表达极其性质回归方程的显著性检验及其原理回归方程系数的显著性检验及其原理自变量间多重共线性的判别方法残差分析的意义与基本原理主成分分析主成分分析的目的是什么样本主成分的计算步骤如何选择主成分主成分分析的应用 主成分回归 综合评价聚类分析系统聚类与动态聚类的流程图五种系统聚类法的定义系统聚类法的SAS实现

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁