《常用多变量统计分析方法简介.pptx》由会员分享,可在线阅读,更多相关《常用多变量统计分析方法简介.pptx(84页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1 多变量统计方法是运用数理统计的方法来研究多变量问题的理论和方法,它是单变量统计统计方法的推广,是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学分支学科。 近年来,多变量统计方法已广泛应用到医学研究的各个领域。医学现象涉及到的变量不止一个,而是多个变量,且这些变量间又存在一定的联系,需要处理多个变量的观测数据。多变量统计分析方法概述2 对于多变量医学问题,如果用单变量统计方法就要对多方面分别进行分析,而一次分析一个方面,同时忽视了各方面之间存在的相关性,这样会丢失很多信息,分析的结果不能客观全面地反映情况。 多变量统计方法不仅能够研究多个变量之间的相互关系以及揭示这些变量之间
2、内在的变化规律,而且能够使复杂的指标简单化,并对研究对象进行分类和简化。 多变量统计分析方法概述3回归分析的分类回归分析的分类多个因变量多个因变量(y1,y2,yk)路径分析路径分析结构方程模型分析结构方程模型分析一个一个因变因变量量 y连续型因变量连续型因变量 (y) - 线性回归分析线性回归分析分类型因变量分类型因变量 (y) -Logistic 回归分析回归分析时间序列因变量时间序列因变量 (t) -时间序列分析时间序列分析生存时间因变量生存时间因变量 (t) -生存风险回归分析生存风险回归分析4一、多重线性回归二、Logistic回归 三、Cox比例风险回归四、其他常用多变量统计方法多
3、变量统计分析方法概述5Multivariate linear regression概念:概念:多重线性回归分析多重线性回归分析也称复线性回归分析复线性回归分析(multiple linear regression analysis),它研究一组自变量如何直接影响一个因变量。自变量(independent variable)是指独立自由的变量,用向量X表示;因变量(dependent variable)是指非独立的、受其它变量影响的变量,用向量Y表示;由于模型仅涉及一个因变量,所以多元线性回归分析也称单变量线性回归分析(univariate linear regression analysis)
4、6 人的体重体重与身高、胸围身高、胸围血压值血压值与年龄、性别、劳动强度、饮食习惯、吸烟年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史状况、家族史糖尿病人的血糖血糖与胰岛素、糖化血红蛋白、血清总胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂胆固醇、甘油三脂射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损毁损半径半径与辐射的温度、照射的时间辐射的温度、照射的时间一个变量的变化直接与另一组变量的变化有关:一个变量的变化直接与另一组变量的变化有关:如:7假定因变量假定因变量Y与与自变量自变量 间存在如下关系:间存在如下关系:mmXXXY22110式中, 是常数项, 称为偏回归系数(partial reg
5、ression coefficient)。 的含义为在其它自变量保持不变的条件下,自变量 改变一个单位时因变量Y 的平均改变量。 为随机误差,又称残差(residual),它表示 的变化中不能由自变量 解释的部分。0m,21m,ii21Ym,iXi21mX,X,X21iX一、多元线性回归方程模型一、多元线性回归方程模型8只有一个自变量时,回归的结果为二维平面上的一条直线;而有两个自变量时,回归的结果为三维空间的一个平面;有更多自变量时,回归的结果则是在三维以上空间的“超平面”,无法用直观图形表达。 9应用条件:应用条件:注意:注意:虽然模型要求因变量是连续数值变量,但对自变量的类型不限。若自变
6、量是分类变量,特别是无序分类变量,要转化为亚变量才能分析。对于自变量是分类变量的情形,可以应用广义线性回归模型分析。广义线性回归模型分析。10二、多元线性回归分析的步骤二、多元线性回归分析的步骤(一)估计各项参数,建立多元线性回归方程模型(二)对整个模型进行假设检验,模型有意义的前提下,再分别对各偏回归系数进行假设检验。(三)计算相应指标,对模型的拟合效果进行评价。11(一)模型的参数估计(一)模型的参数估计1227名糖尿病患者的血清总胆固醇(x1)、甘油三酯(x2)、空腹胰岛素(x3)、糖化血红蛋白(x4)、空腹血糖(y)的测量值列于表中,试建立血糖与其它几项指标关系的多元线性回归方程。 例
7、例16.116.113各变量的离均差矩阵各变量的离均差矩阵14线性回归方程模型为:线性回归方程模型为:151、对模型的假设检验F检验检验2、对偏回归系数的假设检验F检验检验和和t 检验检验3、标准化偏回归系数(二)对模型及偏回归系数的假设检验(二)对模型及偏回归系数的假设检验161、对模型的假设检验F检验检验17SS回归=b1l1y+ b2l2y + b3l3y + b4l4y =0.142467.6962+0.351589.8025+0.2706142.4347+0.638284.5570 =133.7107;回归=m=4 各变量的离均差矩阵各变量的离均差矩阵18SS总=lyy=222.55
8、19;总=n-1=26SS剩余= SS总- SS回归=222.5519-133.7107=88.8412剩余=n-m-1=22 MS回归= SS回归/回归; MS剩余= SS剩余/剩余;F= MS回归/ MS剩余1、对模型的假设检验F检验检验191、对模型的假设检验F检验检验202、对偏回归系数的假设检验F检验检验和和t 检验检验回归方程成立只能认为总的来说自变量与因变量间存在线性关系,但是否每一个自变量都与因变量间存在线性关系,须对其偏回归系数进行假设检验。 方差分析法 t 检验法21 偏回归系数的假设检验-方差分析法方差分析法22 偏回归系数的假设检验-方差分析法方差分析法23偏回归系数的
9、假设检验 t 检验检验42.233192.145512.72643.14622 .24692.145541.137096.46171.91096.16512.72696.46125.39019.51370.7643.146271.91019.51324.97894.15620.24696.16570.7694.15600.272434241444323231334232221224131212114321xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxnA系数矩阵A24指定指定REG过程进行多元线性回归分析,拟合过程进行多元线性回归分析,拟合y与四个自变量间的多元线性回
10、归方程与四个自变量间的多元线性回归方程25整个方程有整个方程有统计学意义统计学意义各自变量的参数估计各自变量的参数估计对偏回归系数对偏回归系数的假设检验的假设检验26注注意意27YjjYYjjjYYjjjjSSbnlnlbllbb) 1/() 1/( 变量回归系数bj标准化偏回归系数bjX10.14245 0.07758X20.35147 0.30931X3-0.27059-0.33948X40.6382 0.397743、标准化偏回归系数28偏回归系数偏回归系数偏回归系偏回归系数标准误数标准误标准偏回归系数标准偏回归系数29(三)计算相应指标,对模型的拟合效果进行评价n评价回归方程回归效果的
11、优劣是回归分析的重要内容之一。常用评价指标有:常用评价指标有:n决定系数、n校正决定系数、n剩余标准差等。 301.决定系数312、剩余标准差32333、校正决定系数34三、逐步回归分析三、逐步回归分析35(一)最优子集回归法求出所有自变量可能组合子集的回归方程的模型(共有2m1个),按一定准则选择最优模型。最优子集法的局限性:最优子集法的局限性:如果自变量个数为4,则所有的回归有24115个;当自变量数个数为10时,所有可能的回归为 2101 1023个;.;当自变量数个数为50时,所有可能的回归为25011015个。36(二)逐步选择法(二)逐步选择法 1. 前进法(forward sel
12、ection)2. 后退法(backward elimination)3. 逐步回归法(stepwise regression)。它们的共同特点是每一步只引入或剔除一个自变量。决定其取舍则基于对偏回归平方和的F检验1; 1;) 1(21)(pnpnSSSSSSFjj残回回37(1)前进法)前进法 自变量从无到有、从少到多自变量从无到有、从少到多 1. Y对每一个自变量作直线回归,对回归平方和最大的自变量作F 检验,有意义(P小)则引入。2. 在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作F 检验,。 局限性:后续变量的引入可能会使先进入方程的自变量变得不重要。38(2)后退
13、法)后退法 先将全部自变量放入方程,然后逐步剔除先将全部自变量放入方程,然后逐步剔除 1.偏回归平方和最小的变量,作F检验及相应的P值,决定它是否剔除(P大) 。2.建立新的回归方程。重复上述过程。 局限性:自变量高度相关时,可能得不出正确的结果;开始时剔 除的变量即使后来变得有显著性也不能再进入方程 。39(3 3)逐步回归法)逐步回归法 双向筛选:双向筛选:引入引入有意义的变量(前进法),有意义的变量(前进法),剔除剔除无意义变无意义变量(后退法)量(后退法) 小样本检验水准 a 一般定为0.10或0.15,大样本把a值定为0.05。 a值越小表示选取自变量的标准越严。 40逐步回归分析的
14、基本思想逐步回归分析的基本思想41用逐步回归法筛选自变量用逐步回归法筛选自变量进入方进入方程的自程的自变量变量剔出方剔出方程的自程的自变量变量每一步每一步时模型时模型的决定的决定系数系数R2C(p)统计量统计量42标准化偏回归系数标准化偏回归系数y=0.35409x2-0.36013x3+0.41334x443变量筛选后去掉截距项后方程各项评价指标的变化变量筛选后去掉截距项后方程各项评价指标的变化44第三节第三节 多元线性回归的应用及其注意事项多元线性回归的应用及其注意事项 45二、二、 多元线性回归应用时的注意事项多元线性回归应用时的注意事项 n1样本含量 n2方程“最优”问题 n3关于逐步
15、回归 n4多元共线性 n5. 异常值识别与强影响分析 4647进行变量筛选的结果及方程的残差进行变量筛选的结果及方程的残差48对于最优子集回归,可以用SAS中的最大R2筛选变量的方法进行最大R2法筛选变量分别输出AIC值、CP值、剩余标准差和校正决定系数。49对于最优子集回归,可以用SAS中的最大R2筛选变量的方法进行最大R2法筛选变量分别输出AIC值、CP值、剩余标准差和校正决定系数。50514残差分析残差分析model y=x1-x4/selection=stepwise r;output out=bb Residual=z;run;proc cc;set bb;proc univaria
16、te normal;var z;run; 正态性检验正态性检验 检验方法检验方法 -统计量统计量- -P 值值- Shapiro-Wilk W 0.968787 Pr D 0.1300 Cramer-von Mises W-Sq 0.070919 Pr W-Sq 0.2500 Anderson-Darling A-Sq 0.372642 Pr A-Sq 0.2500从散点图可以看出,各点子分布无明显规律性,可认从散点图可以看出,各点子分布无明显规律性,可认为近似随机分布,所以拟合的方程可认为是合适的。为近似随机分布,所以拟合的方程可认为是合适的。52例题例题14.2非线性非线性的例子的例子53
17、直接拟合直接拟合x1和和x2与与y的线性模型:的线性模型:例题例题14.254例题例题14.2213xxX1、x2与y的图形2121640. 0353. 1002. 1079. 0 xxxy55n多元共线性是指在进行多元回归分析时,自变量间存在较强的线性相关关系。共线关系的存在,可使得估计系数方差加大,系数估计不稳,结果分析困难。因此在多元回归分析时,特别是当回归结果难以用专业知识解释时,要进行共线性诊断,找出存在共线性且不重要的那些自变量,剔出方程,另行回归分析。n对于存在共线性的资料,可以利用共线性诊断有选择的保留自变量以消除共线性;或者采用岭回归岭回归、主成分回归主成分回归等回归分析方法
18、以避免共线性指标对结果的影响。5 5多元共线性多元共线性56“多元共线”一词最早由R.佛里希于1934年提出,其最初的含义是指回归模型中的某些自变量是线性相关的,即对于出现在模型中的自变量有关系 成立.其中常数 km(m=1,2,n)不全为0.称为完全多元共线;0Mm2211XkXkXk现在所说的“多元共线”有更广泛的含义,除包括完全共线性的情况,也包括变量间有某种关系但又不是十分完全的线性关系.如下式所示的情况 其中 为随机误差项.此时可称为近似多元共线。0Mm2211XkXkXk57多元共线性问题产生的根源:1、由变量性质引起由变量性质引起多元统计分析时,作为自变量的某些变量高度相关,比如
19、身高、体重和胸围,变量之间的相关性是由变量自身的性质决定的,此时不论数据以什么形式取得,样本含量是大是小,都会出现自变量的共线性问题。因此,变量间自身的性质是导致多元共线性的重要原因。58多元共线性问题产生的根源:2、由数据问题引起:样本含量过小、强影响观测值、时序变量、由数据问题引起:样本含量过小、强影响观测值、时序变量样本含量过小:样本含量过小:假设只有两个自变量X1与X2,当n=2时,两点总能连成一条直线,即使性质上原本并不存在线性关系的变量X1与X2,由于样本含量问题产生了共线性。样本含量较小时,自变量容易呈现线性关系。如果研究的自变量个数大于2,设为X1,X2,.,XP,虽然各自变量
20、之间没有线性关系,但如果样本含量n小于模型中自变量的个数,就可能导致多元共线性问题。59多元共线性问题产生的根源:2、由数据问题引起:样本含量过小、强影响观测值、时序变量、由数据问题引起:样本含量过小、强影响观测值、时序变量强影响观测值强影响观测值:其存在会(1)导致或加剧多重共线性; (2)掩盖存在着的 多重共线性。60多元共线性的表现多元共线性的表现在实际应用中主要表现为:在实际应用中主要表现为:(1)模型拟合效果很好,但偏回归系数几乎都无统计学意义;(2)偏回归系数估计值的方差很大;(3)偏回归系数估计值不稳定,随着样本含量的增减各偏回归系数发生较大变化或当一个自变量被引入或剔除时其余变
21、量偏回归系数有很大变化;(4)偏回归系数估计值的大小与符号可能与事先期望的不一致或与经验相悖,结果难以解释 出现以上情况,提示存在多元共线性问题,应进行多元共线出现以上情况,提示存在多元共线性问题,应进行多元共线性诊断。性诊断。616263model x2=x3 x4; R-Square= 0.0492;VIF1=1/(1-0.0492)=1.0517model x3=x2 x4; R-Square= 0.1099;VIF1=1/(1-0.1099)=1.1235model x4=x2 x3; R-Square= 0.1514;VIF1=1/(1-0.1514)=1.1783方差膨胀因子方差膨
22、胀因子VIFproc reg;model y=x2-x4/tol vif collin;run;tol输出容许度;vif输出方差膨胀因子;collin输出所有特征值、特征值对应的条件指数及每一个自变量在每一个特征值上的方差比。64特征根特征根条件指数条件指数方差分量方差分量如果某一自变量只是和截距项存在共线性的话,可以认为不存在共线性。如果某一自变量只是和截距项存在共线性的话,可以认为不存在共线性。656667残差残差学生化残差学生化残差cooks距离距离68某研究所调查了13名儿童的性性别别(x1:男=1,女=2)、年龄年龄(x2:月)、身高身高(x3:厘米)、体重体重(x4:公斤)、胸胸围
23、围(x5:厘米)和心象面积心象面积(y:平方厘米),数据见表。试5个影响因素与心象面积间的关系。 相关分析结果例例16.369回归分析结果各偏回归系数假设检验结果70自变量间的相关性71例题14.5为了分析和预测人体吸入氧气的效率,收集了31名中年男性的健康状况资料。共7个指标:吸氧效率(y)、年龄(x1)、体重(x2)、跑1.5km所用时间(x3)、休息时心跳次数(x4)、跑步是心跳次数(X5)、和最高心率(x6)。该问题中y是因变量,试用多元回归分析建立预测人体吸氧效率的模型。72对上述资料进行逐步回归分析,输出结果为:这个结论易造成误导,因为在年龄、跑1.5km时间和跑步时心率相同的条件
24、下,最高心率越大,吸氧效率越高,这与实际相矛盾。例题14.573对上述资料进行逐步回归分析,输出结果为:对上述资料进行逐步回归分析,输出结果为: X5和x6同时进入模型,模型拟合良好。但x6的回归系数为正,与x6和y的相关系数符号相反。例题14.574(1)检验自变量的内相关性检验自变量的内相关性proc corr data=a;var x1-x6;run;OUTPUT 例题14.575(1)检验自变量的内相关性检验自变量的内相关性OUTPUT proc reg data=a;model y=x1-x6/tol vif collin;run; 条件数条件数197.95,远远大于远远大于10,数
25、据存,数据存在严重共线性。在严重共线性。 变量变量X5和和x6的方差比例的方差比例(vp)很大,接近于)很大,接近于1,二,二者具有很强的共线性。者具有很强的共线性。 vp(x6)vp(x5), 因此,决定拟合模型时将变量因此,决定拟合模型时将变量x6排除在外。排除在外。例题14.576(2)用逐步法拟合用逐步法拟合y在在x1x5上的线性回归模型。上的线性回归模型。proc reg data=a;model y=x1-x5/selection=stepwise;title stepwise regression analysis: excluding x6;run; 第一步将第一步将x3加入到
26、加入到模型中。模型中。例题14.577(2)用逐步法拟合用逐步法拟合y在在x1x5上的线性回归模型。上的线性回归模型。 第二步将第二步将x1加入到模型中。加入到模型中。例题14.578(2)用逐步法拟合用逐步法拟合y在在x1x5上的线性回归模型。上的线性回归模型。 第 三 步 将第 三 步 将x5加入到模加入到模型中。型中。 逐步回归得到的逐步回归得到的最后模型拟合数据最后模型拟合数据很 好 (很 好 ( p 0 . 0 5 , R2=0.8200),偏回归偏回归系数均有统计学意系数均有统计学意义。义。 例题14.579(2)用逐步法拟合用逐步法拟合y在在x1x5上的线性回归模型。上的线性回归
27、模型。 注意!注意! 逐步回归得到的最后模型拟合数据很好(逐步回归得到的最后模型拟合数据很好(p0.05, R2=0.8200),偏回归偏回归系数均有统计学意义。系数均有统计学意义。 总结:总结:例题14.580(3)通过误差诊断判断上述模型是否可靠通过误差诊断判断上述模型是否可靠 所有学生化残差的绝所有学生化残差的绝对值小于对值小于2.2(基本满(基本满足 要 求 ) , 而 所 有足 要 求 ) , 而 所 有Cooks D 小于小于0.5,所以可认为数据中没所以可认为数据中没有异常值。有异常值。proc reg data=a;model y=x1 x3 x5/ p r ;output o
28、ut=b p=p r=r ;plot r.*p. ;run;proc univariate normal data=b;var r; run;例题14.581(3)通过误差诊断判断上述模型是否可靠通过误差诊断判断上述模型是否可靠proc reg data=a;model y=x1 x3 x5/ p r ;output out=b p=p r=r ;plot r.*p. ;run;proc univariate normal data=b;var r; run; 由由r*p 可以看到,残差的方差为常数且相互独立。可以看到,残差的方差为常数且相互独立。例题14.582(3)通过误差诊断判断上述模型
29、是否可靠通过误差诊断判断上述模型是否可靠proc reg data=a;model y=x1 x3 x5/ p r ;output out=b p=p r=r ;plot r.*p. ;run;proc univariate normal data=b;var r; run; 由由univariate 输出可以输出可以看到,残差的均值为看到,残差的均值为0且且服从正态分布。服从正态分布。 由上述分析可知,回归模型的残差检验合乎要求,从而可以由上述分析可知,回归模型的残差检验合乎要求,从而可以得到如下专业结论。得到如下专业结论。例题14.583(4)专业结论:专业结论:吸氧效率(y)与年龄(x1
30、)、跑1.5km所用时间(x3)及跑步时心跳次数(X5)的线性回归模型:Y=113.005-0.2689x1-2.8233x3-0.1349x5 在在跑跑1.5km所用时间(所用时间(x3)及跑步时心跳次数)及跑步时心跳次数(X5)相同的条件下,年龄每增加相同的条件下,年龄每增加1岁,吸氧效率将减少岁,吸氧效率将减少0.2689个单位;个单位; 在年龄(在年龄(x1x1)和跑)和跑1.5km1.5km所用时间(所用时间(x3x3)相同的条件下,跑步时心跳次数)相同的条件下,跑步时心跳次数(X5) (X5) 每每增加一个增加一个单位,吸氧效率将减少单位,吸氧效率将减少2.8233个单位;个单位; 在年龄(在年龄(x1x1)和跑步时心跳次数)和跑步时心跳次数(X5(X5)相同的条件下,跑)相同的条件下,跑1.5km1.5km所用时间(所用时间(x3x3)每)每增加增加1 1分钟分钟,吸氧效率将减少,吸氧效率将减少0.1349个单位;个单位; 体重对体重对吸氧效率的影响无统计学意义;吸氧效率的影响无统计学意义; 跑步时最大心率和跑步时心率很相似,二者具有共线性,在研究吸氧效率时可以跑步时最大心率和跑步时心率很相似,二者具有共线性,在研究吸氧效率时可以不考虑跑步时最大心率这个指标。不考虑跑步时最大心率这个指标。例题14.584