《chapt6相关与回归分析.ppt》由会员分享,可在线阅读,更多相关《chapt6相关与回归分析.ppt(46页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第6 6章章 相关与回归分析相关与回归分析6.1 相关与回归分析的基本概念相关与回归分析的基本概念6.2 一元线性相关与回归分析一元线性相关与回归分析学习目标1.1.变量间的相关关系与相关系数的计算变量间的相关关系与相关系数的计算2.2.总体回归函数与样本回归函数总体回归函数与样本回归函数3.3.线性回归的基本假定线性回归的基本假定4.4.一元线性回归参数的估计与检验一元线性回归参数的估计与检验实例实例1:1:中国妇女生育水平的决定因素是什么中国妇女生育水平的决定因素是什么?妇女生育水平除了受计划生育政策影响以外,还可能与社会、经济、文化等多种因素有关。1.影响中国妇女生育率变动的因素有哪些
2、?2.各种因素对生育率的作用方向和作用程度如何?3.哪些因素是影响妇女生育率主要的决定性因素?4.如何评价计划生育政策在生育水平变动中的作用?5.计划生育政策与经济因素比较,什么是影响生育率的决定因素?6.如果某些地区的计划生育政策及社会、经济、文化等因素发生重大变化,预期对这些地区的妇女生育水平会产生怎样的影响?据世界卫生组织统计,全球肥胖症患者达3亿人,其中儿童占2200万人,11亿人体重过重。肥胖症和体重超常早已不是发达国家的“专利”,已遍及五大洲。目前,全球因“吃”致病乃至死亡的人数已高于因饥饿死亡的人数。(引自光明日报刘军/文)问题:肥胖症和体重超常与死亡人数真有显著 的数量关系吗?
3、这些类型的问题可以运用相关分析与回归分析的这些类型的问题可以运用相关分析与回归分析的方法去解决。方法去解决。实例2:全球吃死的人比饿死的人多?6.1相关与回归分析的基本概念一、变量间的相互关系变量间的相互关系二、相关关系的类型二、相关关系的类型三、相关分析与回归分析三、相关分析与回归分析一、变量间的相互关系一、变量间的相互关系确定性的函数关系确定性的函数关系 Y=f(X)不确定性的统计关系相关关系相关关系 Y=f(X)+(为随机变量)没有关系没有关系 变量间关系的图形描述:坐标图(散点图)相关关系的类型相关关系的类型从涉及的变量数量变量数量看简单相关 多重相关(复相关)从变量相关关系的表现形式
4、表现形式看 线性线性相关散布图接近一条直线(左图)非线性非线性相关散布图接近一条曲线(右图)从变量相关关系变化的方向方向看正相关正相关变量同方向变化A同增同减(A)(A)负相关负相关变量反方向变化 一增一减(B)(B)B从变量相关的程度看完全相关(B)不完全相关(A)C不相关(C)相关关系的类型相关关系的类型相关分析与回归分析相关分析与回归分析回归的古典意义古典意义:高尔顿遗传学的回归概念高尔顿遗传学的回归概念父母身高与子女身高的关系父母身高与子女身高的关系:无论高个子或低个子的子女无论高个子或低个子的子女 都有向人的平均身高回归的都有向人的平均身高回归的 趋势趋势回归的现代意义回归的现代意义
5、一个因变量对若干解释变量依存关系的研究回归的目的目的(实质)(实质):由固定的自变量去估计因变量的平均值由固定的自变量去估计因变量的平均值样样样样本本本本总总总总体体体体自变量固定值自变量固定值自变量固定值自变量固定值自变量固定值自变量固定值估计因变估计因变量平均值量平均值相关分析与回归分析的联系共同的研究对象:都是对变量间相关关系的分析只有当变量间存在相关关系时,用回归分析去寻求相关的具体数学形式才有实际意义相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖于回归分析 相关分析中相关系数的确定建立在回归分析的基础上6.2一元线性相关与回归分析一、一元线性相关系数及检
6、验一、一元线性相关系数及检验二、总体回归函数与样本回归函数二、总体回归函数与样本回归函数三、回归系数的估计三、回归系数的估计四、一元线性回归模型的检验四、一元线性回归模型的检验 五、一元线性回归模型预测五、一元线性回归模型预测一、简单线性相关系数及检验一、简单线性相关系数及检验总体相关系数总体相关系数对于所研究的总体,表示两个相互联系变量相关程度 的总体相关系数为:总体相关系数反映总体两个变量总体相关系数反映总体两个变量X X和和Y Y的线性相关程度。的线性相关程度。特点:特点:对于特定的总体来说,X和Y的数值是既定的 总体相关系数是客观存在的特定数值。样本相关系数通过X和Y 的样本观测值去估
7、计样本相关系数变量X和Y的样本相关系数通常用 表示 特点:样本相关系数是根据从总体中抽取的随机样本 的观测值计算出来的,是对总体相关系数的估 计,它是个随机变量。相关系数的特点:w相关系数的取值在1与1之间。w当r=0时,表明X与Y没有线性相关关系。w当 时,表明X与Y存在一定的线性相关关系:若 表明X与Y 为正相关;若 表明X与Y 为负相关。w当 时,表明X与Y完全线性相关:若r=1,称X与Y完全正相关;若r=1,称X与Y完全负相关。使用相关系数的注意事项:使用相关系数的注意事项:X和Y 都是相互对称的随机变量,所以相关系数只反映只反映变量间的线性相关程度,不 能说明非线性相关关系。相关系数
8、不能确定变量的因果关系,也不能 说明相关关系具体接近于哪条直线。相关系数的检验为什么要检验?为什么要检验?样本相关系数是随抽样而变动的随机变量,相关系数的统计显著性还有待检验。检验的依据:检验的依据:如果X和Y都服从正态分布,在总体相关系数 的假设下,与样本相关系数 r 有关的 t 统计量服从自由度为n-2的 t 分布:相关系数的检验方法给定显著性水平 ,查自由度为 n-2 的临界值 若 ,表明相关系数 r 在统计上是显著的,应否定 而接受 的假设;反之,若 ,应接受 的假设。二、总体回归函数与样本回归函数二、总体回归函数与样本回归函数若干基本概念 Y的条件分布条件分布:Y在X取某固定值条件下
9、的分布。对于X的每一个取值,都有Y的条件期望条件期望与之对应,在坐标图上 Y的条件期望的点随X而变化的轨迹所形成的直线或曲线,称为回归线回归线。如果把Y的条件期望 表示为X的某种函数:,这个函数称为回归函数回归函数。如果其函数形式是只有一个自变量的线性函数,如 ,称为简单(一元)线性回归函数简单(一元)线性回归函数。总体回归函数(总体回归函数(PRF)概念:将总体因变量Y的条件均值表现为自变量X的某种函数,这个函数称为总体回归函数(简记为PRF)。表现形式:(1)条件均值表现形式(2)个别值表现形式(随机设定形式)样本回归函数(SRF)概念:概念:Y的样本观测值的条件均值随自变量X而变动的轨迹
10、,称为样本回归线样本回归线。如果把因变量Y的样本条件均值表示为自变量X的某种函数,这个函数称为样本回归函数样本回归函数 (简记为SRF)。表现形式:表现形式:线性样本回归函数可表示为:或者样本回归函数与总体回归函数的关系 相互联系样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。和 是对总体回归函数参数的估计。是对总体条件期望 的估计 残差 e 在概念上类似总体回归函数中的随机 误差u。回归分析的目的:用样本回归函数去估计总体回归函数。样本回归函数与总体回归函数的关系 相互区别总体回归函数虽然未知,但它是确定的;样本回归线随抽样波动而变化,可以有许多条。样本回归线还不是总体回归线,至
11、多只是未知总体 回归线的近似表现。总体回归函数的参数虽未知,但是确定的常数;样本回归函数的参数可估计,但是随抽样而变化的随机变量。总体回归函数中的 是不可直接观测的;而样本回归函数中的 是只要估计出样本回归的参数就可以计算的数值。三、回归系数的估计三、回归系数的估计回归系数估计的思想:回归系数估计的思想:为什么只能对未知参数作估计为什么只能对未知参数作估计?参数是未知的、不可直接观测的、不能精确计算的参数是未知的、不可直接观测的、不能精确计算的 能够得到的只是变量的样本观测值能够得到的只是变量的样本观测值结论结论:只能通过变量样本观测值选择适当方法去近似只能通过变量样本观测值选择适当方法去近似
12、 地估计回归系数。地估计回归系数。前提前提:u u是随机变量其分布性质不确定,必须作某些是随机变量其分布性质不确定,必须作某些 假定假定,其估计才有良好性质,其检验才可进行。,其估计才有良好性质,其检验才可进行。原则原则:使参数估计值使参数估计值“尽可能地接近尽可能地接近”总体参数真实值总体参数真实值简单线性回归的基本假定w假定假定1 1:零均值假定。w假定假定2 2:同方差假定。w假定假定3 3:误差项之间不存在自相关,即其协方差为0。w假定假定4 4:随机扰动 与自变量 不相关。w假定假定5 5:随机误差项服从正态性假定,即:回归系数的回归系数的最小二乘估计估计基本思想:希望所估计的 偏离
13、实际观测值 的残差 越小越好。可以取残差平方和 作为衡量 与 偏离程度的标准最小二乘准则估计式:表表1 Y1 Y和和X X分别是分别是1515个居民家庭的人均月食品支出与人均月收入水平的数值个居民家庭的人均月食品支出与人均月收入水平的数值编号编号X XY YXYXYX X2 2Y Y2 21 11 0201 020270270275 400275 4001 040 4001 040 40072 90072 9002 2960960260260249 600249 600921 600921 60067 60067 6003 3970970250250242 500242 500940 9009
14、40 90062 50062 5004 41 0201 020280280285 600285 6001 040 4001 040 40078 40078 4005 5910910270270245 700 245 700 828 100828 10072 90072 9006 61 5801 580360360568 800568 8002 496 4002 496 400129 600129 6007 7540540190190102 600 102 600 291 600291 60036 10036 1008 8830830260260215 800215 800688 900688
15、90067 60067 6009 91 2301 230310310381 300381 3001 512 9001 512 90096 10096 10010101 0601 060310310328 600328 6001 123 6001 123 60096 10096 10011111 2901 290340340438 600438 6001 664 1001 664 100115 600115 60012121 3801 380380380524 400524 4001 904 4001 904 400144 400144 4001313810810270270218 700218
16、 700656 100656 10072 90072 9001414920920280280257 600257 600846 400846 40078 40078 4001515640640200200128 000128 000409 600409 60040 00040 000合计合计15 16015 1604 2304 2304 463 2004 463 20016 365 40016 365 4001 231 1001 231 100根据表1计算回归系数估计值,求出样本回归方程。w解:根据回归系数的估计式,w样本回归方程可写成:最小二乘估计的性质 高斯高斯马尔可夫定理马尔可夫定理前提
17、:在基本假定满足时w最小二乘估计是因变量的线性函数线性函数 w最小二乘估计是无偏估计无偏估计,即 w在所有的线性无偏估计中,回归系数的最小二乘估计的方差最小方差最小。结论:回归系数的最小二乘估计是最优线性无最优线性无偏估计量和一致估计量。偏估计量和一致估计量。最小二乘估计的概率分布性质最小二乘估计的概率分布性质w 和和 都是服从正态分布的随机变量,其期都是服从正态分布的随机变量,其期望为望为w方差和标准误差为方差和标准误差为 w结论:结论:的无偏估计w为什么要估计?确定所估计参数的方差需要 由于 不能直接观测,也是未知的 对 的数值只能通过样本信息去估计。w怎样估计?可以证明 的无偏估计为:其
18、中:例2 计算食品支出恩格尔函数的总体方差和回归估计标准差w解:根据表解:根据表1 1,我们已知,我们已知w因此,因此,w所以总体方差的估计值为:所以总体方差的估计值为:w回归估计标准差为回归估计标准差为18.2718.27。四、一元线性回归模型的检验四、一元线性回归模型的检验w(一)回归模型检验的种类:理论意义理论意义检验检验一级检验一级检验二级检验二级检验主要涉及参数估计值的符号和取值区间主要涉及参数估计值的符号和取值区间(经济意义)(经济意义)又称又称统计检验统计检验,它是利用统计学中的抽样,它是利用统计学中的抽样理论来检验样本回归方程的可靠性。理论来检验样本回归方程的可靠性。包含:包含
19、:拟合优度检验拟合优度检验拟合优度检验拟合优度检验和和和和显著性检验显著性检验显著性检验显著性检验。经济计量学检验经济计量学检验,是对标准线性回归模型,是对标准线性回归模型的假定条件能否得到满足进行检验。的假定条件能否得到满足进行检验。包括包括序列相关检验序列相关检验序列相关检验序列相关检验和和和和异方差检验。异方差检验。异方差检验。异方差检验。(二)拟合优度的度量(二)拟合优度的度量基本思想:基本思想:样本回归直线是对样本数据的一种样本回归直线是对样本数据的一种拟合,不同估计方法可拟合出不同的回归线。拟合,不同估计方法可拟合出不同的回归线。样本回归拟合优度用可决系数这个数量指标来样本回归拟合
20、优度用可决系数这个数量指标来度量度量,而该指标建立在对因变量总离差平方和,而该指标建立在对因变量总离差平方和分解的基础上分解的基础上 总离差平方和总离差平方和 回归平方和回归平方和 残差平方和残差平方和 SST =SSR +SSE1.可决系数可决系数w定义:定义:w w可决系数是对回归模型拟合程度的综合度量,可决可决系数是对回归模型拟合程度的综合度量,可决可决系数是对回归模型拟合程度的综合度量,可决可决系数是对回归模型拟合程度的综合度量,可决系数越大,模型拟合度越高;可决系数越小,则模系数越大,模型拟合度越高;可决系数越小,则模系数越大,模型拟合度越高;可决系数越小,则模系数越大,模型拟合度越
21、高;可决系数越小,则模型对样本的拟合程度越差。型对样本的拟合程度越差。型对样本的拟合程度越差。型对样本的拟合程度越差。2.对可决系数的理解 是样本回归拟合值与观测值的平均值之差,是样本回归拟合值与观测值的平均值之差,可认为是可认为是由回归直线解释的部分由回归直线解释的部分;是实际观测值与回归拟合值之差,是实际观测值与回归拟合值之差,是回归直是回归直线不能解释的部分。线不能解释的部分。如果如果 ,即实际观测值落在样本回归,即实际观测值落在样本回归“线线”上,则上,则拟合最好。可认为,拟合最好。可认为,“离差离差”全部来自回归线,而与全部来自回归线,而与“残差残差”无关。无关。3.可决系数的特点w
22、可决系数是非负的统计量;w可决系数取值范围:;w可决系数是样本观测值的函数,可决系数是随抽样而变动的随机变量;w在一元线性回归中,可决系数在数值上是简单线性相关系数的平方:,(三)回归系数显著性的(三)回归系数显著性的 t t 检验检验w目的目的:根据样本回归估计的结果对总体回归函数回归系数的有关假设进行检验,以检验总体回归系数是否等于某个特定的数值。w思想思想:是未知的,而且不一定能获得大样本,这时可用 的无偏估计 代替 去估计参数的标准误差:回归系数显著性的回归系数显著性的 t t 检验检验(续续)w用估计的参数标准误差对估计的参数作标准化变 换,所得的 t 统计量将不再服从正态分布,而是
23、服 从 t 分布:可利用 t 分布作有关的假设检验。回归系数显著性回归系数显著性 t t 检验的方法检验的方法(1)提出假设提出假设一般假设一般假设:常用假设常用假设:(2)计算统计量计算统计量(3)给定显著性水平给定显著性水平,确定临界值确定临界值 (4)(4)检验结果判断检验结果判断 若若 则拒绝原假设,而接受备择假设则拒绝原假设,而接受备择假设 若若 则接受原假设则接受原假设 ,拒绝备择假设拒绝备择假设回归系数显著性的回归系数显著性的P P值检验值检验P P值的意义值的意义P值的意义:在既定原假设下计算回归系数的t统计量 ,可求得 统计量大于 的概率 :这里的 是 t 统计量大于 值的概
24、率,是尚不能拒 绝原假设 的最大显著水平,称为所估 计的回归系数的P值。回归系数显著性的回归系数显著性的P P值检验值检验 检验方法检验方法回归系数显著性的P值检验方法:将所取显著性水平与P值对比所取的显著性水平 (例如取0.05)若比P 值更大,就可在显著性水平 下拒绝 所取的 若小于P值,就应在显著性水平 下接受五、一元线性回归模型预测五、一元线性回归模型预测对平均值的点预测值 :Y的个别值置信度为1的预测区间:因变量的区间预测的特点(1)个别值的预测区间大于平均值的预测区间:Y平均值的预测值与真实平均值有误差,主要是受抽样波动影响;Y个别值的预测值与真实个别值的差异不仅受抽样波动影响,而且还受随机扰动项的影响(2)对 预测区间随 变化而变化:时,=0,此时预测区间最窄,越是远离 ,越大,预测区间越宽。因变量的区间预测的特点(续)(3)预测区间与样本容量有关:样本容量n越 大,越大,预测误差的方差越小,预测区间也越窄。(4)当样本容量趋于无穷大(即n)时,不存在抽样误差,平均值预测误差趋于0,此时个别值的预测误差只决定于随机扰动的方差。