《实用多元统计分析 第四讲.pdf》由会员分享,可在线阅读,更多相关《实用多元统计分析 第四讲.pdf(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、二多元线性回归分析 1回归模式 考虑 p 个自变量和一个因变量 yxxxp12,L它们之间的线性关系 yxxxxiipipp=+111()()Lei 其中xNxjiiN=11j jp=1,Lei是独立同分布(,)N 02仍用最小二乘法估计回归系数,1Lp 误差平方和为yxxxxiipipiN=11112()(Lp)用矩阵形式来表示线性方程为YX=+e YyyN=1M=pNpNppxxxxxxxxXLMLMML11111111 =1MpeeeiN=1M误差平方和为SYXYX()()()=SX YX X()=+=220)=X YX X$()(=X XX Y1将 X 阵分为 j X,1=111111
2、1111,XXOONXXjXxjjjXjXjXjXjXX NX X11在对角线上第项为j()xxijji=21 X X11在非对角线上第项为jh()(xxxxijjihhiN=1)同样 =yXyNYXjYX1 yNyiiN=11 X Y1的第项为j()()(xxyxxyyijjiiNijiNji=11)$()=111111111NOOX XNyX yyX XX y 2回归方程评价 残差平方和SSEyyXXiiN=()($)($)211111 自由度为 N-P-1 总离差平方和SSYyyiiN=(21)自由度为 N-1 回归平方和SSRX X=$111$1 自由度为 P 随机误差的方差$211=
3、NPSSE 误差的标准差S=2 在 y 的总方差中被线性方程所解释的方差量为RSSRSSYSSESSY21=由 SSE 和 SSY 的自由度不同常用 代替 Ra2R2RSSENPSSYNPNPNNPRa22111111=+/()/()2 Ra 没有自由度不同造成的影响在比较二个回归方程好坏时常用 3残差的图象分析 分析目的主要是检验模式选用是否合适 令zy yiji=$作 和 的散点图zj$yi此图应是随机分布如果呈线性分布或方差随 变化$yi应对自变量进行变换后重新建立模式 和每个 的散点图zjxi或和zjxi2或 和等zjx x12如果散点图发生对称分布说明模式需要加入新的项 的直方图和
4、Q-Q 图zj检查个别误差和误差分布 Q-Q 图作法 a.将从小到大排列 zjz i()b.算出每个的发生频率z i()()/iN12 c.根据频率查标准正态表得到 q i()d.作和的散点图q i()zj此散点图趋于直线为好 将z按 j 的顺序作散点图j检查随机ei假设如果随 j 增加而变化zj可能指示之间不独立yi有自相关存在 4回归系数检验 根据a.E($)=Var 正态分布N($)=2 b.Cov(,)10=c.是 P 维正态分布$1E($)11=j)CovX X()()12111=是 的第 j 个对角元素$jNjj(,2jj()X X111 为 Covij($,$)2ij d.($)
5、ijNijiijjij(),()+22t=估计值检验参数估计值的均方差 tNP,1对于)(0Nyt=置信区间ytNNP21;$对于 itVariiiiii=$($)$;iNPiit21j0 Hj0:=against ,H,Hjj110():jj120():Hjj130():如果 t tNP21;拒绝 H0接受 Hjj110():如果 拒绝 1;PNttH0接受 Hjj120():如果 拒绝 1;pNttH0接受 Hjj130():检验所有 都为 0jHP0100:MM=FSSRPSSENPNPPSSRSSENRPRR=/111122 如果 接受 FFP NP P 6预报和置信区间 预报区间在
6、的情况下XXXP00101=,L预报出 的区间y0 模式 注yX010=+e0X0 以距平表示 预报模式 预报误差为$y01=+X0yy00$对y0E yx()0=+10 Var y()02=对$y0E yyx($)0=+10 Var yNXX XX($)()02011101=+)对($)yy00E yy($)000=Var yyNXX XX($)()0020111011=+)tyyNXX XX=+000111011$()t NP,1y0 的预报区间为 0111 01;20100111 01;201)(11)(11XXXXNtxyyXXXXNtxyPNPN+E y x(0)的置信区间 给出 时
7、XXXP00101=,L 模式E yxx(/)01=+0 以距平表示X0 预报E yxyxy($/)$010=+=00 对于$(/)yE yx0 E yE y x$(/)000=Var yE y xNXX XX$(/)()002011101=+0111000)(1)/(XXXXNxyEyt+=tNP,1 对于 的置信区间E yx(/)0 0111 01;01010111 01;01)(1)(122XXXXNtxyXXXXXNtxyPNPN+7多元线性回归的推广应用 均匀取值的时间序列的多项式模式 yar ttrttrttetppt=+122()()()L 令 xttxttxttpp122=()
8、,(),()L 就可用线性回归去做 但是会线性有关X X()X X1不存在需要正交多项式变换 以二次多项式为例 ttettttttay+=)()()(2221 ()()ttNttNiN=22121112 令 x ttt11()()=xtttN2222112()()=选择和12使得和为整数 x t1()xt2()t:1 2 3 4 5 6 7 8 9 10 11 12()tt-5.5-4.5-3.5-2.5-1.5-0.5 0.5 1.5 2.5 3.5 4.5 5.5()tt2 30.25 20.25 12.25 6.25 2.25 0.025 0.025 2.25 6.25 12.25 20
9、.25 30.25()ttN22112 18.28 8.28 0.283 令 12=23=x1(t)-11-9-7-5-3-1 1 3 5 7 9 11 x2(t)55 25 1-17-29-35-35-29-17 1 25 55 如果是三项有 x3(t)可为 x3(t)-33 3 21 25 25 19 7-7-19-25-3 33 此时x1(t)x2(t)和 x3(t)之间不再线性相关了 在二次多项式中回归系数估计值为$=y$()()1112=xtyxtt$()()2222=xtyxtt 对多项式中回归系数 估计量为j$()()jjtjxtyxt=2 *正交多项式变换值可以从表上查出 SS
10、EyyNxtyxtpttjtjjp=22221()()()HHjj0100:=tNPxtSSEjjjP=()12()如果 ttHHjNPj21010;,:拒绝接受?在预报时要注意 t 的变换 三多元相关分析 1 多元相关模式 类似于一元相关模式根据多维正态分布推出在给定 X=x 时Y 的条件密度()=221121211121exp21)(),()/(uxuyxfxyfxyg其中,),(),(12122112122121121121=xEuyEu 此时正态分布的数学期望为)()()/(2122121211uxuuxuxYE+=+=方差为121221211211)/(=xYVar 上述条件期望被称
11、为在向量 X 上 y 的回归方程 2 多元相关系数的估计 理论1,21111+=pjjjjjL估计=jjjjR1111 其中=NijijijxxyyN1_1)(11=NiiyyNS12_1111)(11 =NijijjjxxN12_)(11 相关矩阵=22121211111111RRRRrrrrrrrrrRppppppxxxxyxxxxxyxyxyxyyLMMMLL 3 偏相关系数 当一个变量或更多变量对其它变量的影响是固定常数时其它变量之间的相关关系 例如有三个变量3,21,xxx,x3对 x1和 x2均有影响影响可写成 1_331311)(iiiexxux+=2_332322)(iiiex
12、xux+=Ni,1 K=这里 x3被作为非随机量处理 X3对 x1的影响大小)(_3313_11xxxxii+=X3对 x2的影响大小)(_3323_22xxxxii+=X3对 x1的非影响为=111iiixxZ X3对 x2的非影响为=222iiixxZ 此时Zi1中没有 x3的影响Zi2中也没有 x3的影响Zi1和 Zi2的相关系数为=22221122112221212,1)()()()()(iiiiiiiiiiiiZZxxxxxxxxZZZZr 经变换3122132122313122,1)1)(1(=rrrrrrrZZ )1)(1(23133231313313231331312,4,31
13、2rRrrRrrRrrrk=K 当多个变量 x3,xk,取固定影响时变量 x1和 x2的相关系数为 先将相关系数矩阵分解成=3323132312131211rrrrrrrR 再算 krK312 例如有 5 个变量34512,54321,rxxxxx求和 34512231332313133132313313453534332524232315141313121245353425242315141312,11111111=rrRrrRrrRrrrrRrrrrrrrrrrrrrrrrrrrrR算出后就能算出将 当多个变量的影响取固定常数时对多个变量间的偏相关系数为 设 xi是一个 p+q 维变量 2
14、1,1,1,1,iiiqpipiipiiXXXNixxxxX=+LLL 2,1;2,1)(11122121211=rsXXXXAANSSSSSSNisisrirrsrsrs样本协方差阵为=22121211RRRRR样本相关系数阵为 )()()()(12122121112122121121121221211212112122121121211RRRRdiagDSSSSdiagDDRRRRDDSSSSDRRSRRSS=其中式为偏相关系数阵的计算公 如有六个变量求变量 246 的影响取固定值时变量 135 的偏相关系数阵 相关系数阵为=11111146262456545236343235161412
15、1513rrrrrrrrrrrrrrrR=111,111462624225654523634321614121235151311rrrRrrrrrrrrrRrrrR分解为 便可求出偏相关系数阵 4.偏相关系数的显著性检验 0:0:0:0:)1(,1)3(1,1)2(1,1)1(1,1=kijkijkijkijoHHHagainstHLLLL 0)3(12;,10)2(12;,10)1(12;2,1,HHrrHHrrHHrrkNkijkNkijkNkij拒绝接受如果拒绝接受如果拒绝接受查相关系数表如果LLL 注意自由度 n 为 N-2-k kNzkNzVarrzzkijkijkij=3)(tanh,31)()(tanh)(tanh:)2(01,11,110,1LLL变换通过 0,11,0,10,:=kijkijHzHzLL接受如果接受如果 可查表得到的置信区间为xxxxkijeeeexkNzzkNzz+=+)tanh()3tanh()3tanh(22,1L