《线性相关与回归幻灯片.ppt》由会员分享,可在线阅读,更多相关《线性相关与回归幻灯片.ppt(45页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、线性相关与回归线性相关与回归第1页,共45页,编辑于2022年,星期一实实 例例w某研究者用世界卫生组织生存质量测定量表某研究者用世界卫生组织生存质量测定量表WHOQOL-100测定了测定了47例哈尼族居民的生存例哈尼族居民的生存质量以及性别(取值为:质量以及性别(取值为:1 男,男,0女)、文化女)、文化程度(取值为:程度(取值为:1文盲,文盲,2小学,小学,3初中,初中,4高高中,中,5大专及以上)、睡眠时间(大专及以上)、睡眠时间(h)、有无)、有无慢性病和电视机(取值为:慢性病和电视机(取值为:1有,有,0无)等。无)等。试对其生命质量影响因素进行分析。试对其生命质量影响因素进行分析。
2、第2页,共45页,编辑于2022年,星期一年龄年龄年龄年龄(岁岁岁岁)X X1 1性别性别性别性别X X2 2文化程度文化程度文化程度文化程度 X X3 3睡眠时间睡眠时间睡眠时间睡眠时间(h)(h)X X4 4有无慢性病有无慢性病有无慢性病有无慢性病X X5 5有无电视有无电视有无电视有无电视机机机机X X6 6生存质量总生存质量总生存质量总生存质量总分分分分Y Y27271 12 28 80 01 194.894.822221 12 28 80 00 091.891.824242 22 28 80 01 192.192.116162 23 34 40 01 186.786.732322 2
3、1 15 50 00 085.185.136361 13 33 30 01 184.984.959591 12 29 91 10 094.094.052522 22 28 80 01 188.888.836361 12 28 81 10 090.890.832322 22 28 80 00 092.892.819191 12 29 90 01 188.088.032321 12 28 80 01 190.990.9第3页,共45页,编辑于2022年,星期一一一.直线相关直线相关Linear correlation1.直线相关的概念:直线相关的概念:散点图(散点图(scatter plot)相关
4、关系的描述:相关关系的描述:w w 正相关(正相关(正相关(正相关(positive correlationpositive correlation)w w 负相关(负相关(负相关(负相关(negative correlationnegative correlation)w w 零相关(零相关(零相关(零相关(zero correlationzero correlation)w w 完全相关(完全相关(完全相关(完全相关(completely correlationcompletely correlation)第4页,共45页,编辑于2022年,星期一一一.直线相关直线相关第5页,共45页,编
5、辑于2022年,星期一第6页,共45页,编辑于2022年,星期一第7页,共45页,编辑于2022年,星期一一一.直线相关直线相关2.Pearson相关系数相关系数r的意义:的意义:说明具有直线关系的两个变量间,相关的密切程说明具有直线关系的两个变量间,相关的密切程度及相关方向的指标。度及相关方向的指标。第8页,共45页,编辑于2022年,星期一一一.直线相关直线相关3.3.相关系数相关系数r r的假设检验:的假设检验:w w目的:检验两变量间是否存在直线关系。目的:检验两变量间是否存在直线关系。目的:检验两变量间是否存在直线关系。目的:检验两变量间是否存在直线关系。w w方法:方法:方法:方法
6、:(1 1 1 1)t t t t检验:检验:检验:检验:(2 2)查表:)查表:第9页,共45页,编辑于2022年,星期一一一.直线相关直线相关w w 应用的注意事项:应用的注意事项:相关分析的实际意义相关分析的实际意义相关分析的实际意义相关分析的实际意义 直线相关的应用条件直线相关的应用条件直线相关的应用条件直线相关的应用条件 x x、y y是服从双变量正态分布的随机变量是服从双变量正态分布的随机变量是服从双变量正态分布的随机变量是服从双变量正态分布的随机变量相关关系不一定是因果关系相关关系不一定是因果关系相关关系不一定是因果关系相关关系不一定是因果关系 零相关不一定没有关系零相关不一定没
7、有关系零相关不一定没有关系零相关不一定没有关系 注意异常点的影响注意异常点的影响注意异常点的影响注意异常点的影响第10页,共45页,编辑于2022年,星期一二、直线回归二、直线回归w直线回归的概念:直线回归的概念:用直线回归方程描述两变量间的依存关系。用直线回归方程描述两变量间的依存关系。w直线回归方程(直线回归方程(Linear regression model)用直线方程来描述两变量间的关系,与两变量用直线方程来描述两变量间的关系,与两变量间严格对应的函数关系不同,特称直线回归方间严格对应的函数关系不同,特称直线回归方程。程。第11页,共45页,编辑于2022年,星期一直线回归方程直线回归
8、方程w 计算a和b:最小二乘法原理第12页,共45页,编辑于2022年,星期一回归分析的前提条件回归分析的前提条件Assumptions of linear regressionw线性(linear)w独立性(independent)w正态性(normality)w方差相等(equal variance)第13页,共45页,编辑于2022年,星期一残差分析残差分析(residual analysis)w 残差(残差(residual)w 残差分析残差分析 目的:目的:方法:方法:w 回归诊断(回归诊断(regression diagnosis)第14页,共45页,编辑于2022年,星期一回归系
9、数的假设检验回归系数的假设检验w w目的:两变量间的直线关系是否存在。目的:两变量间的直线关系是否存在。w w方法:方法:(1)方差分析:)方差分析:第15页,共45页,编辑于2022年,星期一(2)t检验:回归系数的假设检验回归系数的假设检验第16页,共45页,编辑于2022年,星期一直线回归方程的应用直线回归方程的应用(1)描述两变量间的依存关系(2)利用回归方程进行预测(forecast)预测即是把预报因子(自变量X)代入回归方程对预报量(应变量Y)进行估计。第17页,共45页,编辑于2022年,星期一(3)统计控制(control)统计控制是利用回归方程进行逆估计,要求应变量Y在一定范
10、围内波动,可通过控制X的取值实现。直线回归方程的应用直线回归方程的应用第18页,共45页,编辑于2022年,星期一直线回归与相关的关系直线回归与相关的关系1.1.区别:区别:(1 1)资料要求:)资料要求:直线回归要求直线回归要求y y服从正态分布;直线相关要求x x,y服从双变量正态分布。服从双变量正态分布。(2 2)应用:)应用:说明两变量间依存关系变化的数量关系用回归;说明两变量间依存关系变化的数量关系用回归;说明两变量间的相关关系用相关说明两变量间的相关关系用相关。第19页,共45页,编辑于2022年,星期一直线回归与相关的关系直线回归与相关的关系2.2.联系:联系:(1 1)同一组数
11、据若同时计算)同一组数据若同时计算r r与与b b,正负号一致;,正负号一致;(2 2)r r和和b b的假设检验是等价的;的假设检验是等价的;(3 3)用回归解释相关。)用回归解释相关。决定系数(决定系数(coefficient of determination)第20页,共45页,编辑于2022年,星期一w作回归分析要有实际意义。w直线回归方程的适用范围:w 内插(interpolation)w 外延(extrapolation)应用回归分析的注意事项应用回归分析的注意事项第21页,共45页,编辑于2022年,星期一多重线性回归与相关多重线性回归与相关Multiple Linear Reg
12、ression and Correlation第22页,共45页,编辑于2022年,星期一多重线性回归的概念多重线性回归的概念w多重线性回归是简单线性回归的推广。它多重线性回归是简单线性回归的推广。它研究一个应变量与多个自变量之间的线性研究一个应变量与多个自变量之间的线性依存关系。依存关系。如:一个人的血压水平受年龄、饮食结构、如:一个人的血压水平受年龄、饮食结构、遗传特性等许多因素的影响。遗传特性等许多因素的影响。第23页,共45页,编辑于2022年,星期一多重线性回归方程多重线性回归方程b1,b2 2,bk称偏回归系数(称偏回归系数(Partial regression coefficie
13、nt),),b0 0为截距为截距(intercept)。)。第24页,共45页,编辑于2022年,星期一w偏回归系数(偏回归系数(Partial regression coefficient):):bk是自变量是自变量xk的偏回归系数,表示当的偏回归系数,表示当方程中其它自变量保持不变时,自变量方程中其它自变量保持不变时,自变量xk每变化一个单位,应变量每变化一个单位,应变量y平均变化平均变化bk个单位。个单位。偏回归系数偏回归系数第25页,共45页,编辑于2022年,星期一w标准化偏回归系数(标准化偏回归系数(standardized partial regression coefficie
14、nt)表示自变量对应变量的贡献大小的指表示自变量对应变量的贡献大小的指标,标准化偏回归系数越大,表示自变量标,标准化偏回归系数越大,表示自变量对应变量的贡献越大。对应变量的贡献越大。标准化偏回归系数标准化偏回归系数第26页,共45页,编辑于2022年,星期一w多重回归分析的前提条件多重回归分析的前提条件(assumptions of multiple linear regression):):线性(线性(Linearity)独立性(独立性(Independence)正态性(正态性(Normality)等方差(等方差(Equal variance)多重线性回归的前提条件多重线性回归的前提条件第2
15、7页,共45页,编辑于2022年,星期一残差分析残差分析第28页,共45页,编辑于2022年,星期一多重线性回归的假设检验多重线性回归的假设检验(1 1)多重线性回归方程的假设检验:)多重线性回归方程的假设检验:检验应变量检验应变量y与与个自变量之间是否个自变量之间是否存在线性回归关系,用方差分析。存在线性回归关系,用方差分析。第29页,共45页,编辑于2022年,星期一(2 2)偏回归系数的假设检验:)偏回归系数的假设检验:为检验每个自变量是否对为检验每个自变量是否对y都有线性回归都有线性回归关系,需分别对每个自变量进行假设检验,关系,需分别对每个自变量进行假设检验,以免把作用不显著的自变量
16、引入方程中。以免把作用不显著的自变量引入方程中。t检验:检验:计算一个包含计算一个包含个自变量的多重线性回个自变量的多重线性回归方程,再用归方程,再用t检验法对各偏回归系数进行假检验法对各偏回归系数进行假设检验。设检验。多重线性回归的假设检验多重线性回归的假设检验第30页,共45页,编辑于2022年,星期一w复相关系数(复相关系数(multiple linear correlation coefficient)R:表示一个变量和一组变量间的线性表示一个变量和一组变量间的线性相关程度的指标。相关程度的指标。R的取值范围:的取值范围:0 01 1R越大,表示线性关系越密切。越大,表示线性关系越密切
17、。多重线性相关多重线性相关第31页,共45页,编辑于2022年,星期一wR2为决定系数(为决定系数(coefficient of determination)表示应变量的变异中可)表示应变量的变异中可用自变量解释的部分。表示线性回归方程用自变量解释的部分。表示线性回归方程的效果。的效果。w调整的调整的R2(adjusted Rsquare):):调整因自变量个数的增加导致的复相关调整因自变量个数的增加导致的复相关系数的增大。系数的增大。决定系数决定系数第32页,共45页,编辑于2022年,星期一w偏相关系数(偏相关系数(partial correlation coefficient):):当固
18、定其它自变量后,每个自变量当固定其它自变量后,每个自变量与应变量之间的相关程度。与应变量之间的相关程度。取值范围:取值范围:11假设检验:假设检验:t检验检验偏相关系数偏相关系数第33页,共45页,编辑于2022年,星期一自变量筛选自变量筛选w在建立的多重回归模型中,有的自变量有在建立的多重回归模型中,有的自变量有统计学意义,有的没有。统计学意义,有的没有。w建立一个仅包含对应变量作用有统计学意建立一个仅包含对应变量作用有统计学意义的自变量,不包括无统计学意义的自变义的自变量,不包括无统计学意义的自变量的模型。量的模型。w多重共线性(多重共线性(Multi-co-linearity):自变):
19、自变量之间存在相似的线性关系。量之间存在相似的线性关系。第34页,共45页,编辑于2022年,星期一w筛选准则:筛选准则:残差平方和(残差平方和(SSE)缩小)缩小决定系数(决定系数(R2)增大)增大调整决定系数(调整决定系数(RA2)增大)增大w 筛选方法:筛选方法:专业筛选专业筛选统计筛选统计筛选自变量筛选自变量筛选第35页,共45页,编辑于2022年,星期一w最优子集法(最优子集法(the best subset):自变):自变量所有可能的组合与因变量进行回归,选量所有可能的组合与因变量进行回归,选择残差最小的模型。择残差最小的模型。w强制法(强制法(enter):即所有自变量均进):即
20、所有自变量均进入方程。入方程。w向前法(向前法(forward):从仅有截距的方):从仅有截距的方程开始,把变量逐个引入方程。程开始,把变量逐个引入方程。自变量筛选的方法自变量筛选的方法第36页,共45页,编辑于2022年,星期一w向后法(向后法(backward):从包括所有自):从包括所有自变量的回归方程中逐个剔除无统计学意变量的回归方程中逐个剔除无统计学意义的变量。义的变量。w逐步法(逐步法(stepwise):在把自变量逐):在把自变量逐个引入方程的同时,剔除已在方程中个引入方程的同时,剔除已在方程中的无统计意义的变量。的无统计意义的变量。自变量筛选的方法自变量筛选的方法第37页,共4
21、5页,编辑于2022年,星期一多重线性回归分析的应用多重线性回归分析的应用w 估计和预测估计和预测w 制订分层的参考值范围制订分层的参考值范围w 辅助诊断和判别辅助诊断和判别w 预测预报预测预报w 统计控制统计控制第38页,共45页,编辑于2022年,星期一应用多重回归与相关应用多重回归与相关的注意事项的注意事项w应用简单回归与相关的注意事项。应用简单回归与相关的注意事项。w采用不同的方法筛选自变量得到的结果采用不同的方法筛选自变量得到的结果不一定完全相同。不一定完全相同。w利用回归方程进行预测和控制时,应用利用回归方程进行预测和控制时,应用范围不宜超出各自变量的原始实测值范范围不宜超出各自变
22、量的原始实测值范围。围。第39页,共45页,编辑于2022年,星期一w利用多重回归分析研究各自变量对因利用多重回归分析研究各自变量对因变量的直接效应和间接效应通径变量的直接效应和间接效应通径分析(分析(path analysis)。)。w自变量间有交互作用时,应建立含交互自变量间有交互作用时,应建立含交互作用项的回归模型。作用项的回归模型。应用多重回归与相关应用多重回归与相关的注意事项的注意事项第40页,共45页,编辑于2022年,星期一w多重回归与多重相关的区别和联系多重回归与多重相关的区别和联系多重回归分析是分析因变量受哪些自变量的影响多重回归分析是分析因变量受哪些自变量的影响以及影响程度
23、如何。要求因变量服从正态分布,以及影响程度如何。要求因变量服从正态分布,自变量可以是等级资料和计数资料。自变量可以是等级资料和计数资料。多重相关是分析一个变量与一组变量的线性组合多重相关是分析一个变量与一组变量的线性组合之间的相关性,各变量是平等的,没有自变量与之间的相关性,各变量是平等的,没有自变量与因变量之别,可用任何一个变量与其他变量的线因变量之别,可用任何一个变量与其他变量的线性组合进行复相关计算。要求一个变量与其他变性组合进行复相关计算。要求一个变量与其他变量的线性组合都服从正态分布量的线性组合都服从正态分布。应用多重回归与相关应用多重回归与相关的注意事项的注意事项第41页,共45页
24、,编辑于2022年,星期一w多重回归与多重相关的区别和联系多重回归与多重相关的区别和联系多重回归分析的内容比多重相关丰富。多重回归分析的内容比多重相关丰富。多重相关中的复相关系数以及偏相关系多重相关中的复相关系数以及偏相关系数通常采用多重回归的方法来计算。数通常采用多重回归的方法来计算。其余的相关与回归的区别和联系。其余的相关与回归的区别和联系。应用多重回归与相关应用多重回归与相关 的注意事项的注意事项 第42页,共45页,编辑于2022年,星期一w没有进入方程的变量,不能认为其没没有进入方程的变量,不能认为其没有作用。有作用。多重共线性多重共线性 误差或变异太大误差或变异太大 变化范围太小变
25、化范围太小 样本例数太小样本例数太小应用多重回归与相关应用多重回归与相关的注意事项的注意事项第43页,共45页,编辑于2022年,星期一w 指标的数量化指标的数量化 目的目的 方法方法 哑变量(哑变量(dummy variables)的应用)的应用 应用多重回归与相关应用多重回归与相关 的注意事项的注意事项 第44页,共45页,编辑于2022年,星期一w 多重相关与简单相关的区别和联系多重相关与简单相关的区别和联系 意义意义 相关系数相关系数 信息量信息量w 简单相关与偏相关的区别与联系简单相关与偏相关的区别与联系 应用多重回归与相关应用多重回归与相关 的注意事项的注意事项 第45页,共45页,编辑于2022年,星期一