统计15章多元线性回归分析.ppt

上传人:wuy****n92 文档编号:54728611 上传时间:2022-10-29 格式:PPT 页数:65 大小:359KB
返回 下载 相关 举报
统计15章多元线性回归分析.ppt_第1页
第1页 / 共65页
统计15章多元线性回归分析.ppt_第2页
第2页 / 共65页
点击查看更多>>
资源描述

《统计15章多元线性回归分析.ppt》由会员分享,可在线阅读,更多相关《统计15章多元线性回归分析.ppt(65页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、1第十五章第十五章 多元线性回归分析多元线性回归分析(multiplelinearregression)授课老师:曾小敏()公共卫生学院卫生统计学教研室2例9-1某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的回归方程。表表9-18名正常儿童的年龄名正常儿童的年龄(岁)与尿肌酐含量(岁)与尿肌酐含量(mmol/24h)3意义意义:分析个自变量(:分析个自变量()对一个应变量()对一个应变量()的)的 影响,例影响,例9-19-1正常儿童的尿正常儿童的尿肌酐含量肌酐含量(mmol/24h)()(Y)与其年龄()与其年龄(X)的数量依

2、存关系)的数量依存关系。目的目的:作出以自变量(:作出以自变量(X X)估计应变量()估计应变量(Y Y)的一元线)的一元线性回归方程。性回归方程。()()资料资料:应变量(:应变量(Y Y)、自变量()、自变量(X X)为定量指标,且每)为定量指标,且每个个X X值相应的值相应的Y Y 服从正态分布。服从正态分布。用途用途:解释和预报。:解释和预报。复习复习双变量直线回归分析双变量直线回归分析4例15-127名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表15-2中,试建立血糖与其它几项指标关系的多元线性回归方程。5表15-227名糖尿病人的血糖及有关变量

3、的测量结果6意义意义:分析:分析多个自变量多个自变量对对一个应变量一个应变量的影响,如糖尿病人的影响,如糖尿病人的血糖变化可能受胰岛素、糖化血红蛋白、血清总胆固醇、的血糖变化可能受胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂等多种生化指标的影响。甘油三脂等多种生化指标的影响。目的目的:作出以多个自变量(:作出以多个自变量(X Xi i)估计应变量()估计应变量(Y Y)的多元)的多元线性回归方程。线性回归方程。资料资料:应变量(:应变量(Y Y)为定量指标;自变量()为定量指标;自变量(X Xi i)全部或大)全部或大部分为定量指标,若有少量定性或等级指标需作转换。部分为定量指标,若有少量定性

4、或等级指标需作转换。用途用途:解释和预报。:解释和预报。多元线性回归分析:7 讲述内容讲述内容第一节第一节 多元线性回归多元线性回归第二节第二节 自变量选择方法自变量选择方法第三节第三节 多元线性回归的应用多元线性回归的应用 及其注意事项及其注意事项8第一节第一节 多元线性回归多元线性回归9 例例15-1:表15-227名糖尿病人的血糖及有关变量的测量结果10n变量:变量:应变量应变量1个,自变量个,自变量m 个,共个,共m+1个。个。n样本含量:样本含量:nn数据格式:见表数据格式:见表15-1n回归模型一般形式:回归模型一般形式:一、多元线性回归模型一、多元线性回归模型11多元线性回归模型

5、的应用条件多元线性回归模型的应用条件表15-1多元回归分析数据格式12一一般般步步骤骤建立回归方程(2)对回归方程、各自变量做假设检对回归方程、各自变量做假设检验;并评价验;并评价回归方程回归方程的拟合效果和的拟合效果和各自变量各自变量的作用大小的作用大小样本估计值样本估计值:统计描述统计推断13二、多元线性回归方程的建立14 例例15-1:表15-227名糖尿病人的血糖及有关变量的测量结果15 第九章第九章:16原理:最小二乘法残差平方和最小)b1,b2,bm建立方程组建立方程组残差平方和残差平方和:(15-5)(15-6)(15-3)(15-4)17(15-5)(15-6)1819(15-

6、4)20原理:最小二乘法残差平方和最小)b1,b2,bm(15-5)(15-6)(15-3)(15-4)(各变量的离差矩阵)21三、假设检验及其评价(一)对回归方程:做假设检验、并评价回归方程的拟合效果做假设检验、并评价回归方程的拟合效果1、所有自变量与应变量之间是否具有线性关系方差分析2、综合评价回归方程的预测和解释能力决定系数R2、复相关系数R(二)对各自变量:做假设检验、并评价各自变量的作用大小做假设检验、并评价各自变量的作用大小1、偏回归平方和的假设检验2、t检验3、标准化回归系数的意义及其假设检验221.方差分析法:方差分析法:(一)对回归方程23表15-3多元线性回归方差分析表24

7、表15-4例15-1的方差分析表252.决定系数决定系数R 2:263.复相关系数复相关系数27(二)对各自变量:指明方程中的每一个自变量对Y的影响1.偏回归平方和28表表15-5对例对例15-1数据作回归分析的部分中间结果数据作回归分析的部分中间结果X1X2X3X429结结果果值最大30偏回归平方和的假设检验(方差分析)偏回归平方和的假设检验(方差分析):查F界值表得:F,(1,22312.t 检验法检验法是一种与偏回归平方和检验完全等价的一种方法。(对于同一资料,不同自变量的对于同一资料,不同自变量的t t 值间可以相互比较,值间可以相互比较,t t 的绝对值愈大,说明该自变量对的绝对值愈

8、大,说明该自变量对Y Y的回归所起的作用愈大。的回归所起的作用愈大。通常统通常统计软件在输出多元回归分析的结果时会同时给出计软件在输出多元回归分析的结果时会同时给出t t检验的结果。检验的结果。)计算公式为:32结结 果:果:结结 论:论:值最大333标准化回归系数 变量标准化是将原始数据减去相应变量的均数,然后再除以该变量的标准差。计算得到的回归方程称作标准化回归方程(无常数项),相应的回归系数即为标准化回归系数。34 注意:注意:偏回归系数有单位,用来解释各自变量对应变量的影响,表示在其它自变量保持不变时,Xj增加或减少一个单位时Y 的平均变化量。不能用各|bj|来比较各Xj对 的影响大小

9、。标准化偏回归系数无单位,用来比较各自变量对应变量的影响大小,|bj|越大,Xj对 的影响越大。35结结论论值最大36第二节自变量选择方法 选择回归效果显著(有意义)的自变量选择回归效果显著(有意义)的自变量目的目的:使得预报和(或)解释效果好,使模型的精度提高。37 例例15-1:表15-227名糖尿病人的血糖及有关变量的测量结果38一、全局择优法一、全局择优法1、校正决定系数()法2、Cp 选择法二、逐步选择法二、逐步选择法1、前进法2、后退法3、逐步回归法39一、全局择优法目的:预报效果好意义:对自变量各种不同的组合所建立的回归方程进行比较选择一组使回归方程拟合得最好的自变量。选择方法:

10、40考虑回归方程中包含的自变量的个数考虑回归方程中包含的自变量的个数 一个好的模型好的模型应尽可能用较少的自变量或更简约的形式来更多地解释因变量的变异性,为了在解释变异的能力和自变量个数之间作出折中,从而采用调整的调整的R(adjusted R-square)241用校正决定系数法对例15-1数据的自变量进行选择当含p个自变量的方程最优时,接近 ,接近p+1.(当p=m,有Cm=m+1m,此种情况不在选择之列,即:p m )44例15-2 用全局择优法对例15-1数据的自变量进行选择变量没有被筛选!45二、逐步选择法(选择对应变量作用有显著性的自变量)1.1.前进法:回归方程中的自全局择优量从

11、无到有、从少到多逐个引入回归方程。此法已基本淘汰。2.后退法:先将全部自变量选入方程,然后逐步剔除无统计学意义的自变量。剔除自变量的方法是在方程中选一个偏回归平方和最小的变量,作F检验决定它是否剔除,若无统计学意义则将其剔除,然后对剩余的自变量建立新的回归方程。重复这一过程,直至方程中所有的自变量都不能剔除为止。理论上最好,建议使用采用此法。3.逐步回归法:逐步回归法是在前述两种方法的基础上,进行双向筛选的一种方法。该方法本质上是前进法。4647表15-7逐步回归过程已经退化为“不显著”的自变量:被剔除。48表15-8例15-3方差分析表49表15-9例15-3的回归系数的估计及检验结果结果表

12、明:血糖的变化与甘油三脂(X2)、胰岛素(X3)和糖化血红蛋白(X4)有线性回归关系,其中与胰岛素负相关。由标准化回归系数看出,糖化血红蛋白对空腹血糖的影响最大。“最优”回归方程为50表15-227名糖尿病人的血糖及有关变量的测量结果运用SPSS软件分析例题。51第三节多元线性回归的应用及注意事项52一、多元线性回归的应用53二、多元线性回归应用的注意事项二、多元线性回归应用的注意事项1指标的数量化指标的数量化数据转换数据转换分2类,可用一个(0,1)变量。如性别分k类,k-1个(0,1)变量,如血型。P349,表16-9方法一。Y:定量变量:定量变量X:可以为定量、定性、:可以为定量、定性、

13、等级性变量等级性变量54数据格式回归方程建立回归方程建立回归方程b1:相当相当A型相对于型相对于O型的差别型的差别b2:相当:相当B型相对于型相对于O型的差别型的差别b3:相当:相当AB型相对于型相对于O型的差别型的差别55(3)等级定量。一般是将等级从弱到强转换为(或)如文化程度分为小学、中学、大学、大学以上四个等级。Y为经济收入。解释:b(b1)反映X(X1)增加1个单位,增加b个单位(如:500元)。表示中学文化较小学收入多500,大学较中学多500,余类推。56b1,b2,b3分别反映中学、大学、大学以上相对于小学分别反映中学、大学、大学以上相对于小学文化程度者经济收入差别的大小文化程

14、度者经济收入差别的大小也可将K个等级转换为K-1个(0,1)变量57不同回归方程适应于不同用途,依专业知识定。逐步选择法选择对应变量作用有显著性的自变量全局择优法选择一组使回归方程拟合得最好的自变量。584.多重共线性即指一些自变量之间存在较强的线性关系。如高血压与年龄、吸烟年限、饮白酒年限等,这些自变量通常是高度相关的,有可能使通过最小二乘法建立回归方程失效,引起下列一些不良后果:(1)参数估计值的标准误变得很大,从而 t 值变得很小。(2)回归方程不稳定,增加或减少某几个观察值,估计值可能会发生很大的变化。(3)t 检验不准确,误将应保留在模型中的重要变量舍弃。(4)估计值的正负符号与客观实际不一致。消除多重共线性:剔除某个造成共线性的自变量;重建回归方程;合并自变量;采用逐步回归方法。59606162636465第十五章多元线性回归分析多元线性回归分析(multiple linear regression)授课老师:曾小敏公共卫生学院 卫生统计学教研室

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 初中资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁