《第二单元统计学高级篇PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第二单元统计学高级篇PPT讲稿.ppt(73页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二单元统计学高级篇第1页,共73页,编辑于2022年,星期二第一节第一节 多重线性回归分析的概念多重线性回归分析的概念 一、多重线性回归的概念一、多重线性回归的概念 n多重线性回归是研究多个自变量(x1x2.)与一个因变量(y)之间线性依存关系的方法。其中自变量可以是随机变量,也可以是给定变量,而因变量是随机变量。n多元线性回归是研究多个自变量与多个因变量线性依存关系的方法。n若所有变量都是随机的,还可以做多重相关分析,描述因变量与一组自变量之间的线性关系;用偏相关描述因变量与一个自变量之间,在扣除其他自变量影响之后的线性关系。第2页,共73页,编辑于2022年,星期二二、多重线性回归模型与
2、方程二、多重线性回归模型与方程n多重线性回归模型用于研究一个被解释变量(因变量)与多个解释变量(自变量)的线性关系分析。多重线性回归模型与一元线性回归模型基本类似,只不过解释变量由一个增加到两个以上,被解释变量y与多个解释变量x1,x2xk之间存在线性关系。n假定被解释变量y与多个解释变量x1,x2xm之间具有线性关系,建立多重线性回归模型为:其中y为被解释变量,xi为k个解释变量,i为偏回归系数,表示在其他自变量固定的条件下,自变量Xi改变一个单位时,因变量Y的平均改变量。为随机误差项。第3页,共73页,编辑于2022年,星期二三、回归模型的前提条件三、回归模型的前提条件n多重线性回归方程:
3、描述被解释变量y的期望值或平均值如何依赖于解释变量x的方程为:n回归模型的前提条件:1)线性:是指反应变量Y的总体平均值与自变量X呈线性关系;2)独立性:自变量间相互独立,自变量之间没有精确的线性关系(不相关);3)正态性:是指对于给定的X值,其对应的Y值的总体和线性模型的误差项均服从正态分布;(服从均数为0的正态分布)4)等方差性:无论X如何取值,Y都有相同的方差;误差项的方差相等。第4页,共73页,编辑于2022年,星期二第二节 多重线性回归分析步骤一、参数估计:一、参数估计:根据样本数据,求得模型参数的估计值,即求出模型的估计值b0、bm后,建立回归方程。多重回归采用最小二乘法估计其参数
4、,即求出 与实际观察值Y之差的平方和(残差平方和)为最小的b0、b1、b2、bm值。多重回归的参数估计和假设检验,常采用统计软件完成。求出参数的估计值后,可建立方程。例例8-18-1 下表是27名糖尿病人的血清总胆固醇、甘油三酯、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值,试建立血糖与其它几项指标关系的多重线性回归方程。第5页,共73页,编辑于2022年,星期二27名糖尿病人血糖与其它变量的测量值第6页,共73页,编辑于2022年,星期二27名糖尿病人血糖与其它变量的测量值第7页,共73页,编辑于2022年,星期二二、建立方程n经统计软件处理后,得各参数如下:n得回归方程为:第8页,共73页,
5、编辑于2022年,星期二三、多重回归分析的假设检验及评价回归分析的假设检验及评价(一)回归方程(模型)的假设检验:检验模型是否成立,或回归方程(模型)的假设检验:检验模型是否成立,或方程是否有意义。方程是否有意义。第9页,共73页,编辑于2022年,星期二方差分析法n多重线性回归方差分析表n以上结果显示:接受H1,回归方程成立。(相关公式)第10页,共73页,编辑于2022年,星期二(二)有关评价指标1.残差标准差(剩余标准差)SY,1,2,M:为扣除m个自变量影响外,因变量仍存在的变异,不能用自变量的变化解释Y的变异。反映回归方程精度,值越小说明回归效果越好。第11页,共73页,编辑于202
6、2年,星期二2.决定系数R2:R2:说明所有自变量能解释Y变化的百分比。取值范围(0,1),越接近1,模型拟合效果越好。R2反映在Y的总变异中,自变量组合解释部分,占总变异的比重,即线性回归模型能在多大程度上解释应变量Y的变异性。自变量对应变量贡献越大,回归效果越好。第12页,共73页,编辑于2022年,星期二SY,1,2,M与R2第13页,共73页,编辑于2022年,星期二3.校正决定系数RC2(Radj2)=0.5282第14页,共73页,编辑于2022年,星期二R2与RC2关系:nR2表示总变差中已由多元回归方程“解释”的比例,R2可解释模型的拟合优度,残差平方和越小,决定系数越接近1,
7、回归方程的拟合程度越好。nRC2当给模型增加自变量时,决定系数也随之逐步增大,然而决定系数的增大代价是自由度的减少。自由度小意味着估计和预测的可靠性低。为了克服样本决定系数的这一缺点,我们设法把R2给予适当的修正,这就是校正决定系数。nR2或RC2只能说明在给定的样本条件下回归方程与样本观测值拟合优度,并不能做出对总体模型的推测,因此不能单凭它们来选择模型。第15页,共73页,编辑于2022年,星期二4.复相关系数R R说明所有自变量与Y间的线性相关程度,而不反应相关的方向。取值范围(0,1),R越接近1,说明所有自变量与应变量Y间的关系越密切。如果只有一个自变量,此时的R=r。(r为pear
8、son相关系数)第16页,共73页,编辑于2022年,星期二(三)偏回归系数的假设检验及评价回归系数的假设检验及评价 n偏回归系数的假设检验(即各自变量贡献大小的检验),有三种方法。n1.t检验法:第17页,共73页,编辑于2022年,星期二t检验显示:胰岛素x3、糖化血红蛋白x4与血糖y有线性回归关系。第18页,共73页,编辑于2022年,星期二t检验显示:胰岛素x3、糖化血红蛋白x4与血糖y有线性回归关系。n机读显示相同结果。第19页,共73页,编辑于2022年,星期二2.方差分析法(求x的偏回归平方和)第20页,共73页,编辑于2022年,星期二机读显示相同结果nF检验显示:胰岛素x3、
9、糖化血红蛋白x4与血糖y有线性回归关系。第21页,共73页,编辑于2022年,星期二3.标准化偏回归系数法n标准化偏回归系数概念:标准化偏回归系数概念:第22页,共73页,编辑于2022年,星期二偏回归系数与标准化偏回归系数关系第23页,共73页,编辑于2022年,星期二第24页,共73页,编辑于2022年,星期二n由这些新的观察值进行回归分析得到的偏回归系数称为标准偏回归系数,各自变量标准偏回归系数可以进行排队,如本例4个自变量的标准偏回归系数依次为0.0776,0.3093,-0.3395,0.3977可以说对血糖影响大小的顺序依次为糖化血红蛋白(X4)、胰岛素(X3)、甘油三酯(X2)、
10、和总胆固醇(X1)。第25页,共73页,编辑于2022年,星期二机得数据变量变量回归系数回归系数b bj j标准化标准化回归系数回归系数b bj jl ljjjj标准差标准差S SX1X10.142450.14245 0.07758 0.0775866.010366.01031.5934 1.5934 X2X20.351470.35147 0.30931 0.30931172.3648172.36482.5748 2.5748 X3X3-0.27059-0.27059-0.33948-0.33948350.3106350.31063.6706 3.6706 X4X40.63820.6382 0
11、.39774 0.3977486.440786.44071.8234 1.8234 Y Y222.5519222.55192.9257 2.9257 第26页,共73页,编辑于2022年,星期二第三节 自变量的选择(筛选)n多重线性回归分析中,常常通过专业知识或实践经验,去挑选那些对因变量影响较大的自变量与因变量Y建立回归方程。n如从为数众多因素中,选择的自变量对反应变量无影响或影响甚微,把它们引入方程后,不但计算量大,信息成本高,而且会使回归系数的估计和预测的精度降低。n选择对因变量影响较大的自变量引入方程,将对反应变量无影响或影响甚微的自变量排除方程,这种统计方法称为自变量选择(筛选),统
12、计中常用方法之一是逐步选择法。第27页,共73页,编辑于2022年,星期二一、最优回归方程及选择方法第28页,共73页,编辑于2022年,星期二二、全局择优法(最优子集回归法)二、全局择优法(最优子集回归法)第29页,共73页,编辑于2022年,星期二1.校正决定系数RC2(Radj2)选择法n所谓最优回归方程是指RC2 最大的方程。第30页,共73页,编辑于2022年,星期二2.CP选择法第31页,共73页,编辑于2022年,星期二第32页,共73页,编辑于2022年,星期二3.AIC准则的计算公式 求出所有可能的回归模型(共有2m1个)对应的准则值;按上述准则选择最优模型。第33页,共73
13、页,编辑于2022年,星期二SAS获得的几个准则值结果ADJRSQADJRSQCPCPAICAICADJRSQADJRSQCPCPAICAICx2x3x4x2x3x40.545630.545630.545630.545634 4 4 440.34340.34340.34340.343x2x3x2x30.407480.407483 346.6646.66x1x2x3x4x1x2x3x40.528230.528235 542.15742.157x1x3x1x30.375220.375223 348.09148.091x1x3x4x1x3x40.487970.487974 443.56843.568
14、x4x40.346530.346532 248.40548.405x1x2x4x1x2x40.446830.446834 445.65545.655x1x10.284430.284432 250.85750.857x1x4x1x40.441370.441373 345.0745.07x1x2x1x20.274780.274783 352.11652.116x2x4x2x40.43950.43953 345.1645.16x3x30.230630.230632 252.81452.814x3x4x3x40.435420.435423 345.35645.356x2x20.178640.17864
15、2 254.57954.579x1x2x3x1x2x30.407560.407564 447.50747.507 第34页,共73页,编辑于2022年,星期二4.全局择优法(最优子集回归法)局限性全局择优法(最优子集回归法)局限性第35页,共73页,编辑于2022年,星期二三、逐步选择法第36页,共73页,编辑于2022年,星期二(一)前进法第37页,共73页,编辑于2022年,星期二方法第38页,共73页,编辑于2022年,星期二(二)后退法第39页,共73页,编辑于2022年,星期二方法第40页,共73页,编辑于2022年,星期二(三)逐步回归法 双向筛选双向筛选:引入有意义的变量(前进法
16、),剔除无意义引入有意义的变量(前进法),剔除无意义的变量(后退法)。的变量(后退法)。注意,引入变量的检验水准要小于或等于剔除变量注意,引入变量的检验水准要小于或等于剔除变量的检验水准。的检验水准。第41页,共73页,编辑于2022年,星期二方法第42页,共73页,编辑于2022年,星期二第四节 逐步回归分析一、逐步回归分析基本思想第43页,共73页,编辑于2022年,星期二二、逐步回归实例分析(令入=出=0.01)第44页,共73页,编辑于2022年,星期二逐步回归法实例(第一步)逐步回归法实例(第一步)模型模型SSSS回回SSSS残残SSSS总总Y Y与与X4X482.714482.71
17、44139.8375139.8375222.5519222.5519Y Y与与X1X169.425169.4251153.1267153.1267222.5519222.5519Y Y与与X2X246.787346.7873175.7645175.7645222.5519222.5519Y Y与与X3X357.913357.9133164.6386164.6386222.5519222.5519第45页,共73页,编辑于2022年,星期二逐步回归法实例(第二步)逐步回归法实例(第二步)模型模型SSSS回回SSSS偏回偏回SSSS残残F F值值P P值值Y Y与与X4X482.7144 82.7
18、144 Y Y与与X4 X1X4 X1107.7903 25.075925.0759 114.7615 5.24410.0311Y Y与与X4 X2X4 X2107.4074 107.4074 24.6931 24.6931 115.1444115.1444 5.14695.14690.03260.0326Y Y与与X4 X3X4 X3106.5683 106.5683 23.8539 23.8539 115.9836115.9836 4.93604.93600.03600.0360第46页,共73页,编辑于2022年,星期二逐步回归法实例(逐步回归法实例(X1X1剔除否)剔除否)模型模型SS
19、SS回回SSSS偏回偏回SSSS残残F F值值P P值值Y Y与与X1X169.425169.4251 38.365238.3652 Y Y与与X4X482.7144 82.7144 25.0759Y Y与与X4 X1X4 X1107.7903 114.76155.24415.24410.03110.0311第47页,共73页,编辑于2022年,星期二逐步回归法实例(第三步)模型模型SSSS回回SSSS偏回偏回SSSS残残F F值值P P值值Y Y与与X4 X1X4 X1107.7903 Y Y与与X4 X1 X4 X1 X2X2113.6472 5.8569Y Y与与X4 X1 X4 X1
20、X3X3121.7480 121.7480 13.957713.9577 100.8038100.8038 3.18473.18470.08750.0875第48页,共73页,编辑于2022年,星期二逐步回归法实例(逐步回归法实例(X4/X1/X3X4/X1/X3剔除否)剔除否)变变量量模型模型SSSS回回SSSS偏回偏回SSSS残残F F值值P P值值Y Y与与X4 X1 X4 X1 X3X3121.7480 121.7480 100.804100.804X1X1Y Y与与X4 X3X4 X3106.5683106.568315.1797 15.1797 X3X3Y Y与与X4 X1X4 X
21、1107.7903 107.7903 13.957713.9577 3.1847 3.1847 0.08700.0870X4X4Y Y与与X1 X3X1 X394.202694.202627.5454 27.5454 第49页,共73页,编辑于2022年,星期二逐步回归法实例(第四步)逐步回归法实例(第四步)模型模型SSSS回回SSSS偏回偏回SSSS残残F F值值P P值值Y Y与与X4 X1 X3 X4 X1 X3 X2X2133.7107133.710711.9627 11.9627 88.841288.84122.9624 2.9624 0.0990.099Y Y与与X4 X1 X3
22、X4 X1 X3 121.7480 121.7480 第50页,共73页,编辑于2022年,星期二逐步回归法实例(是否剔除)逐步回归法实例(是否剔除)变变量量模型模型SSSS回回SSSS偏回偏回SSSS残残F F值值P P值值Y Y与与X4 X1 X4 X1 X3 X2X3 X2133.7107 133.7107 88.8412 88.8412 X2X2Y Y与与X4 X1 X4 X1 X3 X3 121.7480 121.7480 11.9627 11.9627 X1X1Y Y与与X4 X3 X4 X3 X2X2133.0978 133.0978 0.61290.6129 0.1518 0.
23、1518 0.7006 0.7006 X3X3Y Y与与X4 X1 X4 X1 X2X2113.6472 113.6472 20.0635 20.0635 X4X4Y Y与与X1 X3 X1 X3 X2X2105.9167 105.9167 27.7940 27.7940 第51页,共73页,编辑于2022年,星期二逐步回归法实例(是否剔除)逐步回归法实例(是否剔除)变变量量模型模型SSSS回回SSSS偏回偏回SSSS残残F F值值P P值值Y Y与与X4 X3 X4 X3 X2X2133.0978 133.0978 89.4540 89.4540 X4X4Y Y与与X3 X2X3 X2100
24、.8292 100.8292 32.2686 32.2686 X3X3Y Y与与X4 X2X4 X2107.4074 107.4074 25.6904 25.6904 6.6054 6.6054 0.0171 0.0171 X2X2Y Y与与X4 X3X4 X3106.5683 106.5683 26.5295 26.5295 第52页,共73页,编辑于2022年,星期二方差分析结果方差分析结果变变异来源异来源自由度自由度 SSMSFP总变总变异异26222.5519回回 归归3133.09844.36611.410.0001残残 差差2389.4543.889第53页,共73页,编辑于202
25、2年,星期二回归系数及其检验回归系数及其检验第54页,共73页,编辑于2022年,星期二机得数据比较分析第55页,共73页,编辑于2022年,星期二第五节 多重线性回归应用与注意事项 一、多重线性回归应用:多重线性回归应用:影响因素分析,控制混杂因素。影响因素分析,控制混杂因素。第56页,共73页,编辑于2022年,星期二预测:由自变量值推出应变量预测:由自变量值推出应变量Y Y的值的值第57页,共73页,编辑于2022年,星期二控制:指定应变量Y的值查看自变量的改变量第58页,共73页,编辑于2022年,星期二二、应用的注意事项二、应用的注意事项1.变量的数量化变量的数量化变量的数量化变量的
26、数量化(1)自变量为连续型变量:必要时作变换。(2)自变量为有序变量:依次赋值,如疗效好中差,可分别赋值3、2、1。(3)自变量为二分类:如令男1,女0。(4)自变量为名义分类:需要采用哑变量进行编码。第59页,共73页,编辑于2022年,星期二2.2.样本含量样本含量n观察个体数n与变量个数m的比例一般至少应为:n:m1:510。3.3.3.3.统计统计统计统计“最优最优最优最优”与专业的与专业的与专业的与专业的“最优最优最优最优”。n不同准则、方法得出的“最优”方程不同;n不同的引入、剔除标准获得的“最优”方程不同;n方程还受数据的正确性、共线性影响。第60页,共73页,编辑于2022年,
27、星期二4.4.多重共线性多重共线性n共线性:自变量间存在着线性关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性。n问题:问题:出现回归系数的符号与由专业知识不符;变量的重要性与专业不符等现象。使建立的回归方程失败。n n多重共线性的识别:多重共线性的识别:多重共线性的识别:多重共线性的识别:整个方程决定系数R2高,但各自变量对应的回归系数均不显著。n解决共线性的主要方法解决共线性的主要方法:筛选自变量;做主成分回归;岭回归。第61页,共73页,编辑于2022年,星期二共线性诊断第62页,共73页,编辑于2022年,星期二5.5.交互作用交互作用n当某
28、一自变量对应变量的作用大小与另一个自变量的取值有关时,则表示两个变量有交互作用。n检验两变量间有无交互作用,普遍的做法是在方程中加入它们的乘积项再做检验。如考察X1、X2间的交互作用,可在模型中加入X1X2项。第63页,共73页,编辑于2022年,星期二举例第64页,共73页,编辑于2022年,星期二如令X5=X34,则第65页,共73页,编辑于2022年,星期二e.血糖第66页,共73页,编辑于2022年,星期二6.不同筛选方法比较 自变量与应变量相关系数大小第67页,共73页,编辑于2022年,星期二(1)向前筛选法(t检验、入=0.05)n共线性容忍度越小,共线性问题越严重。n容忍度即SS残/SS总。第68页,共73页,编辑于2022年,星期二向前筛选法(t检验、入=0.10)第69页,共73页,编辑于2022年,星期二(2)向后剔除法(t检验、剔=0.10)第70页,共73页,编辑于2022年,星期二(3)逐步法(入=0.05,剔=0.10)第71页,共73页,编辑于2022年,星期二逐步法(入=0.10,剔=0.15)第72页,共73页,编辑于2022年,星期二VIF第73页,共73页,编辑于2022年,星期二