第二单元统计学高级篇优秀PPT.ppt

上传人:石*** 文档编号:78964391 上传时间:2023-03-19 格式:PPT 页数:73 大小:4.28MB
返回 下载 相关 举报
第二单元统计学高级篇优秀PPT.ppt_第1页
第1页 / 共73页
第二单元统计学高级篇优秀PPT.ppt_第2页
第2页 / 共73页
点击查看更多>>
资源描述

《第二单元统计学高级篇优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第二单元统计学高级篇优秀PPT.ppt(73页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第二单元统计学高级篇第一页,本课件共有73页第一节第一节 多重线性回归分析的概念多重线性回归分析的概念 一、多重线性回归的概念一、多重线性回归的概念 n多重线性回归是研究多个自变量(x1x2.)与一个因变量(y)之间线性依存关系的方法。其中自变量可以是随机变量,也可以是给定变量,而因变量是随机变量。n多元线性回归是研究多个自变量与多个因变量线性依存关系的方法。n若所有变量都是随机的,还可以做多重相关分析,描述因变量与一组自变量之间的线性关系;用偏相关描述因变量与一个自变量之间,在扣除其他自变量影响之后的线性关系。第二页,本课件共有73页二、多重线性回归模型与方程二、多重线性回归模型与方程n多重

2、线性回归模型用于研究一个被解释变量(因变量)与多个解释变量(自变量)的线性关系分析。多重线性回归模型与一元线性回归模型基本类似,只不过解释变量由一个增加到两个以上,被解释变量y与多个解释变量x1,x2xk之间存在线性关系。n假定被解释变量y与多个解释变量x1,x2xm之间具有线性关系,建立多重线性回归模型为:其中y为被解释变量,xi为k个解释变量,i为偏回归系数,表示在其他自变量固定的条件下,自变量Xi改变一个单位时,因变量Y的平均改变量。为随机误差项。第三页,本课件共有73页三、回归模型的前提条件三、回归模型的前提条件n多重线性回归方程:描述被解释变量y的期望值或平均值如何依赖于解释变量x的

3、方程为:n回归模型的前提条件:1)线性:是指反应变量Y的总体平均值与自变量X呈线性关系;2)独立性:自变量间相互独立,自变量之间没有精确的线性关系(不相关);3)正态性:是指对于给定的X值,其对应的Y值的总体和线性模型的误差项均服从正态分布;(服从均数为0的正态分布)4)等方差性:无论X如何取值,Y都有相同的方差;误差项的方差相等。第四页,本课件共有73页第二节 多重线性回归分析步骤一、参数估计:一、参数估计:根据样本数据,求得模型参数的估计值,即求出模型的估计值b0、bm后,建立回归方程。多重回归采用最小二乘法估计其参数,即求出 与实际观察值Y之差的平方和(残差平方和)为最小的b0、b1、b

4、2、bm值。多重回归的参数估计和假设检验,常采用统计软件完成。求出参数的估计值后,可建立方程。例例8-18-1 下表是27名糖尿病人的血清总胆固醇、甘油三酯、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值,试建立血糖与其它几项指标关系的多重线性回归方程。第五页,本课件共有73页27名糖尿病人血糖与其它变量的测量值第六页,本课件共有73页27名糖尿病人血糖与其它变量的测量值第七页,本课件共有73页二、建立方程n经统计软件处理后,得各参数如下:n得回归方程为:第八页,本课件共有73页三、多重回归分析的假设检验及评价回归分析的假设检验及评价(一)回归方程(模型)的假设检验:检验模型是否成立,或回归方程(

5、模型)的假设检验:检验模型是否成立,或方程是否有意义。方程是否有意义。第九页,本课件共有73页方差分析法n多重线性回归方差分析表n以上结果显示:接受H1,回归方程成立。(相关公式)第十页,本课件共有73页(二)有关评价指标1.残差标准差(剩余标准差)SY,1,2,M:为扣除m个自变量影响外,因变量仍存在的变异,不能用自变量的变化解释Y的变异。反映回归方程精度,值越小说明回归效果越好。第十一页,本课件共有73页2.决定系数R2:R2:说明所有自变量能解释Y变化的百分比。取值范围(0,1),越接近1,模型拟合效果越好。R2反映在Y的总变异中,自变量组合解释部分,占总变异的比重,即线性回归模型能在多

6、大程度上解释应变量Y的变异性。自变量对应变量贡献越大,回归效果越好。第十二页,本课件共有73页SY,1,2,M与R2第十三页,本课件共有73页3.校正决定系数RC2(Radj2)=0.5282第十四页,本课件共有73页R2与RC2关系:nR2表示总变差中已由多元回归方程“解释”的比例,R2可解释模型的拟合优度,残差平方和越小,决定系数越接近1,回归方程的拟合程度越好。nRC2当给模型增加自变量时,决定系数也随之逐步增大,然而决定系数的增大代价是自由度的减少。自由度小意味着估计和预测的可靠性低。为了克服样本决定系数的这一缺点,我们设法把R2给予适当的修正,这就是校正决定系数。nR2或RC2只能说

7、明在给定的样本条件下回归方程与样本观测值拟合优度,并不能做出对总体模型的推测,因此不能单凭它们来选择模型。第十五页,本课件共有73页4.复相关系数R R说明所有自变量与Y间的线性相关程度,而不反应相关的方向。取值范围(0,1),R越接近1,说明所有自变量与应变量Y间的关系越密切。如果只有一个自变量,此时的R=r。(r为pearson相关系数)第十六页,本课件共有73页(三)偏回归系数的假设检验及评价回归系数的假设检验及评价 n偏回归系数的假设检验(即各自变量贡献大小的检验),有三种方法。n1.t检验法:第十七页,本课件共有73页t检验显示:胰岛素x3、糖化血红蛋白x4与血糖y有线性回归关系。第

8、十八页,本课件共有73页t检验显示:胰岛素x3、糖化血红蛋白x4与血糖y有线性回归关系。n机读显示相同结果。第十九页,本课件共有73页2.方差分析法(求x的偏回归平方和)第二十页,本课件共有73页机读显示相同结果nF检验显示:胰岛素x3、糖化血红蛋白x4与血糖y有线性回归关系。第二十一页,本课件共有73页3.标准化偏回归系数法n标准化偏回归系数概念:标准化偏回归系数概念:第二十二页,本课件共有73页偏回归系数与标准化偏回归系数关系第二十三页,本课件共有73页第二十四页,本课件共有73页n由这些新的观察值进行回归分析得到的偏回归系数称为标准偏回归系数,各自变量标准偏回归系数可以进行排队,如本例4

9、个自变量的标准偏回归系数依次为0.0776,0.3093,-0.3395,0.3977可以说对血糖影响大小的顺序依次为糖化血红蛋白(X4)、胰岛素(X3)、甘油三酯(X2)、和总胆固醇(X1)。第二十五页,本课件共有73页机得数据变量变量回归系数回归系数b bj j标准化标准化回归系数回归系数b bj jl ljjjj标准差标准差S SX1X10.142450.14245 0.07758 0.0775866.010366.01031.5934 1.5934 X2X20.351470.35147 0.30931 0.30931172.3648172.36482.5748 2.5748 X3X3-

10、0.27059-0.27059-0.33948-0.33948350.3106350.31063.6706 3.6706 X4X40.63820.6382 0.39774 0.3977486.440786.44071.8234 1.8234 Y Y222.5519222.55192.9257 2.9257 第二十六页,本课件共有73页第三节 自变量的选择(筛选)n多重线性回归分析中,常常通过专业知识或实践经验,去挑选那些对因变量影响较大的自变量与因变量Y建立回归方程。n如从为数众多因素中,选择的自变量对反应变量无影响或影响甚微,把它们引入方程后,不但计算量大,信息成本高,而且会使回归系数的估计

11、和预测的精度降低。n选择对因变量影响较大的自变量引入方程,将对反应变量无影响或影响甚微的自变量排除方程,这种统计方法称为自变量选择(筛选),统计中常用方法之一是逐步选择法。第二十七页,本课件共有73页一、最优回归方程及选择方法第二十八页,本课件共有73页二、全局择优法(最优子集回归法)二、全局择优法(最优子集回归法)第二十九页,本课件共有73页1.校正决定系数RC2(Radj2)选择法n所谓最优回归方程是指RC2 最大的方程。第三十页,本课件共有73页2.CP选择法第三十一页,本课件共有73页第三十二页,本课件共有73页3.AIC准则的计算公式 求出所有可能的回归模型(共有2m1个)对应的准则

12、值;按上述准则选择最优模型。第三十三页,本课件共有73页SAS获得的几个准则值结果ADJRSQADJRSQCPCPAICAICADJRSQADJRSQCPCPAICAICx2x3x4x2x3x40.545630.545630.545630.545634 4 4 440.34340.34340.34340.343x2x3x2x30.407480.407483 346.6646.66x1x2x3x4x1x2x3x40.528230.528235 542.15742.157x1x3x1x30.375220.375223 348.09148.091x1x3x4x1x3x40.487970.487974

13、 443.56843.568x4x40.346530.346532 248.40548.405x1x2x4x1x2x40.446830.446834 445.65545.655x1x10.284430.284432 250.85750.857x1x4x1x40.441370.441373 345.0745.07x1x2x1x20.274780.274783 352.11652.116x2x4x2x40.43950.43953 345.1645.16x3x30.230630.230632 252.81452.814x3x4x3x40.435420.435423 345.35645.356x2x2

14、0.178640.178642 254.57954.579x1x2x3x1x2x30.407560.407564 447.50747.507 第三十四页,本课件共有73页4.全局择优法(最优子集回归法)局限性全局择优法(最优子集回归法)局限性第三十五页,本课件共有73页三、逐步选择法第三十六页,本课件共有73页(一)前进法第三十七页,本课件共有73页方法第三十八页,本课件共有73页(二)后退法第三十九页,本课件共有73页方法第四十页,本课件共有73页(三)逐步回归法 双向筛选双向筛选:引入有意义的变量(前进法),剔除引入有意义的变量(前进法),剔除无意义的变量(后退法)。无意义的变量(后退法)

15、。注意,引入变量的检验水准要小于或等于剔除变注意,引入变量的检验水准要小于或等于剔除变量的检验水准。量的检验水准。第四十一页,本课件共有73页方法第四十二页,本课件共有73页第四节 逐步回归分析一、逐步回归分析基本思想第四十三页,本课件共有73页二、逐步回归实例分析(令入=出=0.01)第四十四页,本课件共有73页逐步回归法实例(第一步)逐步回归法实例(第一步)模型模型SSSS回回SSSS残残SSSS总总Y Y与与X4X482.714482.7144 139.8375139.8375 222.5519222.5519Y Y与与X1X169.425169.4251 153.1267153.126

16、7 222.5519222.5519Y Y与与X2X246.787346.7873 175.7645175.7645 222.5519222.5519Y Y与与X3X357.913357.9133 164.6386164.6386 222.5519222.5519第四十五页,本课件共有73页逐步回归法实例(第二步)逐步回归法实例(第二步)模型模型SSSS回回SSSS偏回偏回SSSS残残F F值值P P值值Y Y与与X4X482.7144 82.7144 Y Y与与X4 X1X4 X1107.7903 25.075925.0759 114.7615 5.24410.0311Y Y与与X4 X2X

17、4 X2107.4074 107.4074 24.6931 24.6931 115.1444115.1444 5.14695.14690.03260.0326Y Y与与X4 X3X4 X3106.5683 106.5683 23.8539 23.8539 115.9836115.9836 4.93604.93600.03600.0360第四十六页,本课件共有73页逐步回归法实例(逐步回归法实例(X1X1剔除否)剔除否)模型模型SSSS回回SSSS偏回偏回SSSS残残F F值值P P值值Y Y与与X1X169.425169.4251 38.365238.3652 Y Y与与X4X482.7144

18、 82.7144 25.0759Y Y与与X4 X1X4 X1107.7903 114.76155.24415.24410.03110.0311第四十七页,本课件共有73页逐步回归法实例(第三步)模型模型SSSS回回SSSS偏回偏回SSSS残残F F值值P P值值Y Y与与X4 X1X4 X1107.7903 Y Y与与X4 X1 X4 X1 X2X2113.6472 5.8569Y Y与与X4 X1 X4 X1 X3X3121.7480 121.7480 13.957713.9577 100.8038100.8038 3.18473.18470.08750.0875第四十八页,本课件共有73

19、页逐步回归法实例(逐步回归法实例(X4/X1/X3X4/X1/X3剔除否)剔除否)变变量量模型模型SSSS回回SSSS偏回偏回SSSS残残F F值值P P值值Y Y与与X4 X1 X4 X1 X3X3121.7480 121.7480 100.804100.804X1X1Y Y与与X4 X3X4 X3106.5683106.568315.1797 15.1797 X3X3Y Y与与X4 X1X4 X1107.7903 107.7903 13.957713.9577 3.1847 3.1847 0.08700.0870X4X4Y Y与与X1 X3X1 X394.202694.202627.545

20、4 27.5454 第四十九页,本课件共有73页逐步回归法实例(第四步)逐步回归法实例(第四步)模型模型SSSS回回SSSS偏回偏回SSSS残残F F值值P P值值Y Y与与X4 X1 X3 X4 X1 X3 X2X2133.7107133.710711.9627 11.9627 88.841288.84122.9624 2.9624 0.0990.099Y Y与与X4 X1 X3 X4 X1 X3 121.7480 121.7480 第五十页,本课件共有73页逐步回归法实例(是否剔除)逐步回归法实例(是否剔除)变变量量模型模型SSSS回回SSSS偏回偏回SSSS残残F F值值P P值值Y Y

21、与与X4 X1 X4 X1 X3 X2X3 X2133.7107 133.7107 88.8412 88.8412 X2X2Y Y与与X4 X1 X4 X1 X3 X3 121.7480 121.7480 11.9627 11.9627 X1X1Y Y与与X4 X3 X4 X3 X2X2133.0978 133.0978 0.61290.6129 0.1518 0.1518 0.7006 0.7006 X3X3Y Y与与X4 X1 X4 X1 X2X2113.6472 113.6472 20.0635 20.0635 X4X4Y Y与与X1 X3 X1 X3 X2X2105.9167 105.

22、9167 27.7940 27.7940 第五十一页,本课件共有73页逐步回归法实例(是否剔除)逐步回归法实例(是否剔除)变变量量模型模型SSSS回回SSSS偏回偏回SSSS残残F F值值P P值值Y Y与与X4 X3 X4 X3 X2X2133.0978 133.0978 89.4540 89.4540 X4X4Y Y与与X3 X2X3 X2100.8292 100.8292 32.2686 32.2686 X3X3Y Y与与X4 X2X4 X2107.4074 107.4074 25.6904 25.6904 6.6054 6.6054 0.0171 0.0171 X2X2Y Y与与X4

23、X3X4 X3106.5683 106.5683 26.5295 26.5295 第五十二页,本课件共有73页方差分析结果方差分析结果变变异来源异来源自由度自由度 SSMSFP总变总变异异26222.5519回回 归归3133.09844.36611.410.0001残残 差差2389.4543.889第五十三页,本课件共有73页回归系数及其检验回归系数及其检验第五十四页,本课件共有73页机得数据比较分析第五十五页,本课件共有73页第五节 多重线性回归应用与注意事项 一、多重线性回归应用:多重线性回归应用:影响因素分析,控制混杂因素。影响因素分析,控制混杂因素。第五十六页,本课件共有73页预测

24、:由自变量值推出应变量预测:由自变量值推出应变量Y Y的值的值第五十七页,本课件共有73页控制:指定应变量Y的值查看自变量的改变量第五十八页,本课件共有73页二、应用的注意事项二、应用的注意事项1.变量的数量化变量的数量化(1)自变量为连续型变量:必要时作变换。(2)自变量为有序变量:依次赋值,如疗效好中差,可分别赋值3、2、1。(3)自变量为二分类:如令男1,女0。(4)自变量为名义分类:需要采用哑变量进行编码。第五十九页,本课件共有73页2.2.样本含量样本含量n观察个体数n与变量个数m的比例一般至少应为:n:m1:510。3.3.3.3.统计统计“最优最优”与专业的与专业的“最优最优”。

25、n不同准则、方法得出的“最优”方程不同;n不同的引入、剔除标准获得的“最优”方程不同;n方程还受数据的正确性、共线性影响。第六十页,本课件共有73页4.4.多重共线性多重共线性n共线性:自变量间存在着线性关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性。n问题:问题:出现回归系数的符号与由专业知识不符;变量的重要性与专业不符等现象。使建立的回归方程失败。n n多重共线性的识别:多重共线性的识别:整个方程决定系数R2高,但各自变量对应的回归系数均不显著。n解决共线性的主要方法解决共线性的主要方法:筛选自变量;做主成分回归;岭回归。第六十一页,本课件共有

26、73页共线性诊断第六十二页,本课件共有73页5.5.交互作用交互作用n当某一自变量对应变量的作用大小与另一个自变量的取值有关时,则表示两个变量有交互作用。n检验两变量间有无交互作用,普遍的做法是在方程中加入它们的乘积项再做检验。如考察X1、X2间的交互作用,可在模型中加入X1X2项。第六十三页,本课件共有73页举例第六十四页,本课件共有73页如令X5=X34,则第六十五页,本课件共有73页e.血糖第六十六页,本课件共有73页6.不同筛选方法比较 自变量与应变量相关系数大小第六十七页,本课件共有73页(1)向前筛选法(t检验、入=0.05)n共线性容忍度越小,共线性问题越严重。n容忍度即SS残/SS总。第六十八页,本课件共有73页向前筛选法(t检验、入=0.10)第六十九页,本课件共有73页(2)向后剔除法(t检验、剔=0.10)第七十页,本课件共有73页(3)逐步法(入=0.05,剔=0.10)第七十一页,本课件共有73页逐步法(入=0.10,剔=0.15)第七十二页,本课件共有73页VIF第七十三页,本课件共有73页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 资格考试

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁