《第二章多元回归分析PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第二章多元回归分析PPT讲稿.ppt(53页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二章多元回归分析第1页,共53页,编辑于2022年,星期二3.1 多元线性回归模型 一、多元回归模型与回归方程 二、估计的多元回归方程 三、参数的最小二乘估计第2页,共53页,编辑于2022年,星期二一、多元回归模型与回归方程1.多元回归模型(multiple regression model)称为多元线性回归模型1).多元线性回归模型包含一个因变量与两个或两个以上自变量.2).误差项 为随机变量3).为模型的参数,称偏回归系数.第3页,共53页,编辑于2022年,星期二多元线性回归模型误差项的基本假定 1.误差项是一个期望值为0的随机变量,即E()=0.2.误差项的方差都相等,即 3.误差
2、项服从正态分布,即第4页,共53页,编辑于2022年,星期二2.多元回归方程(multiple regression equation)称(3.2)为总体多元线性回归方程.表示当其他变量不变,而 每变动一个单位时,E(y)相应的变动值.第5页,共53页,编辑于2022年,星期二多元线性回归方程的直观解释1.表示 保持不变时,每变动一个单位时的相应变化量.2.表示 保持不变时,每变动一个单位时的相应变化量.考虑二元线性回归模型第6页,共53页,编辑于2022年,星期二二、估计的多元回归的方程 是未知参数,可以根据样本数据作估计.记的估计为,则称为估计的多元回归方程(estimated multi
3、ple regression equation)或样本多元回归方程.第7页,共53页,编辑于2022年,星期二三、参数的最小二乘估计使因变量的观察值 y 与估计值 之间的离差平方和达到最小来求,即使达到最小.称 为 的最小二乘估计.第8页,共53页,编辑于2022年,星期二续 根据微积分中求极值的原理,应是下列正规方程组的解第9页,共53页,编辑于2022年,星期二例3.1 一家大型商业银行在多个地区设有分行,为弄清楚不良贷款形成的原因,抽取了该银行所属的25家分行2002年的有关业务数据(表2-1).试建立不良贷款(y)与贷款余额(x1)、累计应收贷款(x2)、贷款项目个数(x3)和固定资产
4、投资额(x4)的线性回归方程,并解释各回归系数的含义.解:由 Excel 给出的多元回归结果见表12-2.得不良贷款(y)与贷款余额(x1)、累计应收贷款(x2)、贷款项目个数(x3)和固定资产投资额(x4)的线性回归方程如下第10页,共53页,编辑于2022年,星期二表3-1某商业银行2002年的有关业务数据第11页,共53页,编辑于2022年,星期二用Excel进行回归分析的步骤第12页,共53页,编辑于2022年,星期二表3-2Excel输出的回归分析结果第13页,共53页,编辑于2022年,星期二3.2 回归方程的拟合优度 一、多重判定系数 二、估计标准误差第14页,共53页,编辑于2
5、022年,星期二一、多重判定系数(multiple coefficient of determination)对多元回归同样可分解成如下形式则多重判定系数为第15页,共53页,编辑于2022年,星期二续 多重判定系数反映样本回归方程的拟合好坏程度,R 愈大,说明样本回归方程拟合得愈好。显然,.而称 y 关于 的样本复相关系数,R 的大小可以反映作为一个整体的与 y 的线性相关的密切程度.第16页,共53页,编辑于2022年,星期二修正多重判定系数(adjusted multiple coefficient of determination)由于样本多重判定系数的分母 SST 对给定的样本数据是
6、不变的,而 SSR 与引进回归方程的自变量个数有关.因此,应对 R 作调整,调整的样本多重判定系数为第17页,共53页,编辑于2022年,星期二例 根据例12.1的数据,计算多重判定系数.解:根据(13.7)式,得而根据(13.8)式,则第18页,共53页,编辑于2022年,星期二二、估计标准误差(standard error of estimate)误差项的标准差的估计称为估计标准误差,或称为估计量的标准差.根据例13.1的数据,得(13.9)第19页,共53页,编辑于2022年,星期二3.3 显著性检验 一、线性关系检验 二、回归系数检验和推断第20页,共53页,编辑于2022年,星期二一
7、、线性关系检验 线性关系检验,即回归方程的显著性检验,具体步骤为 1.提出原假设和备择假设对规定的显著性水平,若则拒绝,认为 y 对 存在线性关系,称回归方程显著.否则,认为 y 对 之间不存在线性关系,称回归方程不显著.2.计算检验统计量至少有一个不为0第21页,共53页,编辑于2022年,星期二方差分析表前面的这些计算结果可以列成表格的形式,称为方差分析表.方差分析表方差来源平方和自由度均方F 值回归SSRpSSR/p残差SSEn-p-1SSE/(n-p-1)总和SSTn-1第22页,共53页,编辑于2022年,星期二 根据例 3.1 建立的回归方程,检验线性关系的显著性.解:提出假设例3
8、.2根据式查F 分布表得 ,从而拒绝原假设.至少有一个不为0第23页,共53页,编辑于2022年,星期二二、回归系数检验和推断1.当回归方程显著时,仅表示 中至少有一个不为 0,即并不表示每一个自变量对因变量的影响一定都是显著的.2.回归系数的显著性则是对每一个自变量都要检验,从而确定每一个自变量对因变量的影响是否显著.3.采用 t 检验4.对于多元线性回归,回归系数的显著性检验与回归方程的显著性检验是两种不同的检验方法.第24页,共53页,编辑于2022年,星期二回归系数的显著性检验步骤 1.提出原假设和备择假设2.计算检验统计量其中而 是 角线上第 个元素.(13.11)第25页,共53页
9、,编辑于2022年,星期二续 3.对规定的显著性水平,若则拒绝,称 对 y 的影响显著,即认为.否则,接受,称 对 y 的影响不显著,即认为.第26页,共53页,编辑于2022年,星期二例3.3 根据例 3.1 建立的回归方程,检验每一个自变量对因变量的影响是否显著.解:根据表3-2,得查 t 分布表得 从而只有 对因变量的影响显著.并可得 的0.95置信区间第27页,共53页,编辑于2022年,星期二回归系数的置信区间 当回归系数通过检验后,还可以给出回归系数的置信区间.的 的置信区间为根据例13.13,并可得 的0.95置信区间第28页,共53页,编辑于2022年,星期二3.4 多重共线性
10、 一、多重共线性及其所产生的问题 二、多重共线性的判别 三、多重共线性问题的处理第29页,共53页,编辑于2022年,星期二一、多重共线性及其所产生的问题 1.当自变量之间线性相关时,称自变量存在多重共线性.2.自变量存在多重共线性时,使的方差增大,从而使的取值变动大,甚至会出现反常值.1.当自变量之间线性相关时,称自变量存在多重共线性.2.自变量存在多重共线性时,使 的方差增大,从而使 的取值变动大,甚至会出现反常值.第30页,共53页,编辑于2022年,星期二二、多重共线性的判别 检测多重共线性的最简单的一种办法是计算自变量之间的相关系数并进行显著性检验.若有一个或多个相关系数显著,则表明
11、自变量之间线性相关,即存在着多重共线性.第31页,共53页,编辑于2022年,星期二例3.4 根据例 3.1 的数据,检验自变量是否存在多重共线性.表3-3 自变量之间的相关矩阵 第32页,共53页,编辑于2022年,星期二表3-4相关系数的 t 检验统计量第33页,共53页,编辑于2022年,星期二三、多重共线性问题的处理 剔除紧密相关且不重要的自变量,从而尽可能使自变量之间线性无关.第34页,共53页,编辑于2022年,星期二例3.5 根据例 3.1 的数据,对多重共线性进行处理.解:由于 最小,首先剔除 ,建立 y 与 的回归方程.又由于这时 最小,且 不显著.从而再剔除 ,建立 y 与
12、 的回归方程.这时,都是显著.第35页,共53页,编辑于2022年,星期二包含x1、x2和 x4 的回归方程第36页,共53页,编辑于2022年,星期二表 35包含x1和 x4 的回归方程第37页,共53页,编辑于2022年,星期二3.5 利用回归方程进行估计和预测对自变量 的一组取值根据样本回归方程用作为 或 的估计,称为点估计或点预测.第38页,共53页,编辑于2022年,星期二区间预测对于自变量的一组取值 根据样本回归方程给出 或 的一个估计区间,称为置信区间.由于置信区间和预测区间的计算较复杂,这里我们直接给出结果:第39页,共53页,编辑于2022年,星期二例3.6 根据例 3.1
13、的数据,贷款余额 x1=100、累计应收贷款x2=10、贷款项目个数 x3=15 和固定资产投额 x4=60,试给出不良贷款的0.95置信区间和预测区间.解:可以计算 点估计为2.929.置信区间:2.04,3.80 置信区间:【-0.88,6.72】第40页,共53页,编辑于2022年,星期二3.6 虚拟自变量的回归 一、含有一个虚拟自变量的回归 二、用虚拟自变量回归解决方差分析问题第41页,共53页,编辑于2022年,星期二一、含有一个虚拟自变量的回归 如果一个定性的自变量只划分为两个类别,并分别用 0 和 1 表示,这种定性变量称为虚拟自变量.回归模型中使用虚拟自变量时,称为虚拟自变量的
14、回归.当一个定性的自变量划分为 k(2)个类别时,则可转化为 k 个虚拟自变量,但只能引进 k-1 个虚拟自变量.第42页,共53页,编辑于2022年,星期二例3.7 为研究考试成绩与性别之间的关系,从某大学商学院随机抽取男女学生各8名,得到他们的市场营销学课程的考试成绩列于表3-8.试建立考试成绩与性别的线性回归方程.解:学生性别是一个定性变量,分别用 0 和 1 表示男性和女性,即由 Excel 给出的结果如表2-9所示.,男性,女性第43页,共53页,编辑于2022年,星期二表3-816名学生的市场营销学课程考试成绩第44页,共53页,编辑于2022年,星期二用Excel进行虚拟自变量的
15、回归分析的步骤第45页,共53页,编辑于2022年,星期二表3-9Excel 给出的回归分析结果第46页,共53页,编辑于2022年,星期二例3.8 为研究工资水平与工作年限和性别之间的关系,在某行业随机抽取10名职工,所得数据如下.表3-10 10名职工的工资水平、工作年限和性别的数据 第47页,共53页,编辑于2022年,星期二表3-11月工资收入(y)与工作年限(x1)的回归结果第48页,共53页,编辑于2022年,星期二续 首先,考虑只有数值型自变量(工作年限)的一元回归.由Excel 给出的回归结果如表 3-11 所示.回归方程显著,R2=0.5342.再引进虚拟自变量(性别),即,
16、男性,女性得包含虚拟自变量的数据表3-12如下.第49页,共53页,编辑于2022年,星期二表3-1210名职工的工资水平、工作年限和性别的数据第50页,共53页,编辑于2022年,星期二续 根据表3-12的数据,由Excel 给出的回归结果如表3-13所示.回归方程和回归系数都显著,且表明应该引入虚拟自变量(性别).根据表3-13,回归方程为于是对男性职工 ,回归方程为而对女性职工 ,回归方程为第51页,共53页,编辑于2022年,星期二表3-13 月工资收入(y)与工作年限 、性别 的回归结果第52页,共53页,编辑于2022年,星期二作业与思考:n1、对于线性统计模型n假设,最小化误差平方和得到如下线性方程组(1)把这个方程组写成矩阵的形式,并利用矩阵方法求最小二乘估计量b的值。(2)如果 的无偏估计量s2的值。(3)求b的协方差矩阵。(4)分别写出能够检验 的t统计量(k=1,2,3)。(5)写出能够检验 的t 统计量和F统计量。第53页,共53页,编辑于2022年,星期二