第8章-回归分析.pptx

上传人:莉*** 文档编号:87325837 上传时间:2023-04-16 格式:PPTX 页数:47 大小:630.36KB
返回 下载 相关 举报
第8章-回归分析.pptx_第1页
第1页 / 共47页
第8章-回归分析.pptx_第2页
第2页 / 共47页
点击查看更多>>
资源描述

《第8章-回归分析.pptx》由会员分享,可在线阅读,更多相关《第8章-回归分析.pptx(47页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、主要内容主要内容8.1 回归分析简介回归分析简介8.2 线性回归分析线性回归分析8.3 曲线回归分析曲线回归分析8.4 非线性回归分析非线性回归分析8.5 二元二元Logistic回归分析回归分析第1页/共47页8.1 回归分析简介回归分析简介(1 1)确定性关系与非确定性关系)确定性关系与非确定性关系变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。(2 2)回归分析基本概念)回归分析基本概念回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。我

2、们不仅可以利用概率统计知识,对这个经验公式的有效性进行判定,同时还可以利用这个经验公式,根据自变量的取值预测因变量的取值。如果是多个因素作为自变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是显著显著的,哪些是不显不显著著的。第2页/共47页8.1 回归分析简介回归分析简介(3 3)回归分析的一般步骤)回归分析的一般步骤n第1步 确定回归方程中的因变量和自变量。n第2步 确定回归模型。n第3步 建立回归方程。n第4步 对回归方程进行各种检验。拟合优度检验回归方程的显著性检验回归系数的显著性检验n第5步 利用回归方程进行预测。第3页/共47页主要内容主要内容8.1 回归分析简介回归分

3、析简介8.2 线性回归分析线性回归分析8.3 曲线回归分析曲线回归分析8.4非线性回归分析非线性回归分析8.4 二元二元Logistic回归分析回归分析第4页/共47页8.2线性回归分析线性回归分析8.2.1 基本概念及统计原理基本概念及统计原理1.1.基本概念基本概念 线性回归假设因变量与自变量之间为线性关系,用一定的线性回归模型来拟合因变量和自变量的数据,并通过确定模型参数来得到回归方程。根据自变量的多少,线性回归可有不同的划分。当自变量只有一个时,称为一元线性回归,当自变量有多个时,称为多元线性回归。第5页/共47页8.2线性回归分析线性回归分析(2)(2)统计原理统计原理一元回归方程和

4、多元回归方程一元线性和多元线性回归分析的核心任务就是估计其中的参数。第6页/共47页8.2线性回归分析线性回归分析8.2.2 SPSS实例分析【例8-1】现有1992年-2006年国家财政收入和国内生产总值的数据如下表所示,请研究国家财政收入和国内生产总值之间的线性关系。年份国内生产总值(单位:亿元)财政收入(单位:亿元)年份国内生产总值(单位:亿元)财政收入(单位:亿元)199226923.53483.37200099214.613395.23199335333.94348.952001109655.216386.04199448197.95218.102002120332.718903.6

5、4199560793.76242.202003135822.821715.25199671176.67407.992004159878.326396.47199778973.08651.142005183867.931649.29199884402.39875.952006210871.038760.20199989677.111444.08第7页/共47页8.2 线性回归分析线性回归分析第第1步步 分析:分析:这是一个因变量和一个自变量之间的问题,故应该考虑用一元线性回归解决。第第2步步 数据组织:数据组织:定义三个变量,分别为“year”(年份)、“x”(国内生产总值)、“y”(财政收入)

6、。第第3步步 作散点图,观察两个变量的相关性:作散点图,观察两个变量的相关性:依次选择菜单“图形旧对话框散点/点状简单分布”,并将“国内生产总值”作为x轴,“财政收入”作为y轴,得到如下所示图形。可以看出两变量具有较强的线性关系,可以用一元线性回归来拟合两变量。第8页/共47页8.2 线性回归分析线性回归分析第第4步步 一元线性回归分析设置:一元线性回归分析设置:选择菜单“分析回归线性”,打开“线性回归”对话框,将变量“财政收入”作为因变量,“国内生产总值”作为自变量。打开“统计量”对话框,选上“估计”和“模型拟合度”。单击“绘制(T)”按钮,打开“线性回归:图”对话框,选用DEPENDENT

7、作为y轴,*ZPRED为x轴作图。并且选择“直方图”和“正态概率图”作相应的保存选项设置,如预测值、残差和距离等。第9页/共47页8.2 线性回归分析线性回归分析第第5步步 主要结果及分析:主要结果及分析:变量输入和移去表模型输入的变量移去的变量方法1国内生产总值.输入a.已输入所有请求的变量。b.因变量:财政收入。表中显示回归模型编号、进入模型的变量、移出模型的变量和变量的筛选方法。可以看出,进入模型的自变量为“国内生产总值”。模型综述表模型RR方调整R方 标准估计的误差1.989a.979.9771621.66312a.预测变量:(常量),国内生产总值。b.因变量:财政收入。R=0.989

8、,说明自变量与因变量之间的相关性很强。R方(R2)=0.979,说明自变量“国内生产总值”可以解释因变量“财政收入”的97.9%的差异性。第10页/共47页8.2 线性回归分析线性回归分析方差分析表表中显示因变量的方差来源、方差平方和、自由度、均方、F检验统计量的观测值和显著性水平。方差来源有回归、残差。从表中可以看出,F统计量的观测值为592.25,显著性概率为0.000,即检验假设“H0:回归系数B=0”成立的概率为0.000,从而应拒绝原假设,说明因变量和自变量的线性关系是非常显著的,可建立线性模型。第11页/共47页8.2 线性回归分析线性回归分析回归系数表表中显示回归模型的常数项、非

9、标准化的回归系数B值及其标准误差、标准化的回归系数值、统计量t值以及显著性水平(Sig.)。从表中可看出,回归模型的常数项为-4993.281,自变量“国内生产总值”的回归系数为0.197。因此,可以得出回归方程:财政收入=-4993.281+0.197国内生产总值。回归系数的显著性水平为0.000,明显小于0.05,故应拒绝T检验的原假设,这也说明了回归系数的显著性,说明建立线性模型是恰当的。第12页/共47页主要内容主要内容8.1 回归分析简介回归分析简介8.2 线性回归分析线性回归分析8.3 曲线回归分析曲线回归分析8.4非线性回归分析非线性回归分析8.4 二元二元Logistic回归分

10、析回归分析第13页/共47页8.3 曲线曲线回归分析回归分析8.3.1 基本概念及统计原理(1)(1)基本概念曲线回归(曲线拟合、曲线估计)是研究一个自变量和一个因变量之间非线性关系的一种方法。指选定一种用方程表达的曲线,使得实际数据与理论数据之间的差异尽可能小。如果曲线选择得好,那么可以揭示因变量与自变量的内在关系,并对因变量的预测有一定意义。在曲线回归中,需要解决两个问题:一是选用哪种理论模型,即用哪种方程来拟合观测值;二是当模型确定后,如何选择合适的参数,使得理论数据和实际数据的差异最小。第14页/共47页8.3 曲线曲线回归分析回归分析8.3.1 基本概念及统计原理(1)统计原理在曲线

11、估计中,有很多的数学模型,选用哪一种形式的回归方程才能最好地表示出一种曲线的关系往往不是一个简单的问题,可以用数学方程来表示的各种曲线的数目几乎是没有限量的。在可能的方程之间,以吻合度而论,也许存在着许多吻合得同样好的曲线方程。因此,在对曲线的形式的选择上,对采取什么形式需要有一定的理论,这些理论是由问题本质决定的。(3)分析步骤首先,在不能明确究竟哪种模型更接近样本数据时,可在上述多种可选择的模型中选择几种模型;其次,SPSS自动完成模型参数的估计,并输出回归方程显著性检验的F值和概率P值、决定系数R2等统计量;最后,以判定系数为主要依据选择其中的最优模型,并进行预测分析等。第15页/共47

12、页8.3 曲线曲线回归分析回归分析8.3.2 SPSS实例分析实例分析【例8-3】表8.16是19892001年国家保费收入与国内生产总值的数据,试研究保费收入与国内生产总值的关系。年度保费收入国民生产总值年度保费收入国民生产总值19804.64517.81991239.721662.519817.84860.3199237826651.9198210.35301.8199352534560.5198313.25957.41994630466701984207206.7199568357494.9198533.18989.1199677666850.5198645.810201.4199710

13、8073142.7198771.0411954.519981247.376967.21988109.514922.319991393.2280579.41989142.616917.820001595.988228.11990178.518598.420012109.3694346.4第16页/共47页8.3 曲线曲线回归分析回归分析第第1步步 分析:先用散点图的形式进行分析,分析:先用散点图的形式进行分析,看究竟是否具有一元线性关系,如果具有一元线性关系,则用一元线性回归分析,否则采用曲线估计求解。第第2步步 数据组织:数据组织:定义为三个变量,分别是“year”(年度)、“y”(保费收入)

14、和“x”(国内生产总值),输入数据并保存。第第3步步 作散点图初步判定变量的分布趋势:作散点图初步判定变量的分布趋势:保费收入y随国内生产总值x的提高而逐渐提高,而且当国内生产总值达到一定水平后,保费收入的增幅更加明显。因此用线性回归模型表示x,y的关系是不恰当的。于是应找拟合效果好的模型。第17页/共47页8.3 曲线曲线回归分析回归分析第第4步步 进行曲线估计:进行曲线估计:依次选择菜单“分析回归曲线估计”,将所有模型全部选上,看哪种模型拟合效果更好(主要看决定系数R2),其所有模型的拟合优度R2如下表所示。从决定系数(R方即R2)来看,三次曲线效果最好(因为其R2值最大),并且方差分析的

15、显著性水平(Sig.)为0。故重新进行上面的过程,只选“三次曲线(Cubic)”一种模型。第18页/共47页8.3 曲线曲线回归分析回归分析第第5步步 结果与分析。结果与分析。决定系数R2=0.990,且显著性概率值为0.000,故可判断保费收入与国内生产总值之间有较显著的三次曲线关系。从参数估算值可知因变量与自变量的三次回归模型为:y=-166.430+0.029x-5.364E-7x2+5.022E-12x3。第19页/共47页8.3 曲线曲线回归分析回归分析第第5步步 结果与分析。结果与分析。从三次曲线对原始观测值的拟合效果图,可看出其拟合效果非常好。第20页/共47页主要内容主要内容8

16、.1 回归分析简介回归分析简介8.2 线性回归分析线性回归分析8.3 曲线回归分析曲线回归分析8.4非线性回归分析非线性回归分析8.4 二元二元Logistic回归分析回归分析第21页/共47页8.4 非线性回归分析非线性回归分析8.4.1 基本概念及统计原理(1)(1)基本概念可以通过变量转换转化为线性关系,并最终进行线性回归的叫本质线性关系;而无法通过变量转换转化为线性关系,最终也无法进行线性回归分析的叫本质非线性关系。我们平时所讲的非线性回归就是本质非线性关系。线性回归模型要求变量之间必须是线性关系,曲线回归只能处理能够通过变量转换转化为线性关系的非线性问题,而且也只能用于一个自变量和因

17、变量回归关系的模型分析判别,因此这些方法都有一定的局限性。相反,非线性回归可以估计因变量和自变量之间任意关系的模型,我们可以根据自身需要而设定回归方程的具体形式。因此,非线性回归方法在实际应用中实用价值更大,应用范围更广。第22页/共47页8.4 非线性回归分析非线性回归分析8.4.1 基本概念及统计原理(2)(2)统计原理非线性回归分析要求自变量和因变量均为数值型变量,如果是分类变量,应该将其重新编码为数值型变量。非线性回归模型一般可以表示为如下形式:式中,为期望函数,该模型的结构和线性回归模型非常相似,所不同的是期望函数 可能为任意形式,有时甚至可以没有显式表达式。第23页/共47页8.4

18、 非线性回归分析非线性回归分析8.4.1 基本概念及统计原理(3)(3)分析步骤针对呈非线性关系的情况,可以采用两种策略:一是对标准的线性模型做一些修正,使之能处理各种异常情况,但方法仍在线性回归的范畴内,教材表8.15给出了一些常见的非线性回归模型及其变换方式,请读者参照学习;二是彻底打破原有模型的束缚,采用非线性模型来拟合。非线性回归过程是专用的非线性回归模型拟合过程,它采用迭代方法对用户设置的各种复杂曲线模型进行拟合,同时将残差的定义从最小二乘法向外扩展,为用户提供了极为强大的分析能力,不仅能够拟合SPSS的回归分析过程提供的全部模型,还可以拟合文件回归、多项式回归、百分位数回归等各种非

19、常复杂的模型。一般第二种策略最权威,同时也是统计学的重点之一,但比较难于掌握。第24页/共47页8.4 非线性回归分析非线性回归分析8.4.2 非线性回归非线性回归SPSS实例分析实例分析【例8-4】表8.20是一家公司在8周内每周的营业收入和广告费用数据。公司老板希望建立一个回归模型,以便用电视广告费用和报纸广告费用预测公司营业收入。第25页/共47页8.4 非线性回归分析非线性回归分析8.4.2 非线性回归SPSS实例分析第1步 分析。这是一个具有两个自变量的模型拟合问题,先用散点图的形式进行分析,看究竟是否具有线性关系,如果具有线性关系,则用线性回归进行分析,否则采用非线性回归求解。第2

20、步 数据组织。定义3个变量,分别是“营业收入”、“电视广告费用”和“报纸广告费用”,输入数据并保存。第3步 作散点图,初步判定变量的分布趋势。依次选择菜单“图形旧对话框散点图/点图矩阵散点图”,并将3个变量均选入到“矩阵变量”框中。第26页/共47页8.4.2 非线性回归SPSS实例分析第4步 进行非线性回归。(1)选择菜单:“分析回归非线性”,打开“非线性回归”对话框,并按如下图所示进行设置。8.4 非线性回归分析非线性回归分析第27页/共47页8.4 非线性回归分析非线性回归分析8.4.2 非线性回归SPSS实例分析第5步 主要结果及分析。(1)下表为迭代历史记录表。可以看出,经过9次迭代

21、后,模型达到收敛标准,找到了最佳解。于是得到营业收入关于两种广告费用的预测回归模型为y=86.531+1.089x1-0.667x2+0.724x1x2第28页/共47页8.4 非线性回归分析非线性回归分析8.4.2 非线性回归SPSS实例分析第5步 主要结果及分析。(2)下表为整个模型的显著性检验结果。可以看出,决定系数R2为0.941,拟合结果较好。第29页/共47页8.4 非线性回归分析非线性回归分析8.4.2 非线性回归SPSS实例分析第5步 主要结果及分析。(3)预测值和残差保存到数据表中第30页/共47页主要内容主要内容8.1 回归分析简介回归分析简介8.2 线性回归分析线性回归分

22、析8.3 曲线回归分析曲线回归分析8.4非线性回归分析非线性回归分析8.4 二元二元Logistic回归分析回归分析第31页/共47页8.5 二元二元Logistics回归分析回归分析8.5.1 基本概念及统计原理1 1 基本概念Logistic回归分析就是针对因变量是定性变量的回归分析。在实际生活中,我们经常会遇到因变量是定性变量的情况,如医学上的阴性和阳性,生存与死亡,消费现象中的购买行为发生还是不发生,金融现象中的上市公司IPO通过还是不通过,等等。可以处理定性因变量的统计分析方法有:判别分析、Probit分析、Logistic回归分析和对数线性模型分析等。在社会科学中,应用最多的是Lo

23、gistic回归分析。根据因变量取值类别数量不同,Logistic回归分析又分为二元Logistic回归分析和多元Logistic回归分析。二元Logistic回归模型中因变量只可以取两个值1和0(虚拟因变量),而多元Logistic回归模型中因变量可取多个值。本节重点介绍二元Logistic回归模型,对于多元Logistic回归模型只做简要说明。第32页/共47页8.5 二元二元Logistics回归分析回归分析8.5.1 基本概念及统计原理2 统计原理(1)logit变换设因变量y是只取0或1的二分类变量,p为某事件发生的概率,取值区间为0,1,当事件发生时y=1,否则y=0,即p=P(y

24、=1)(事件发生的概率)是研究对象。将比率p/(1-p)取自然对数,即对p做logit变换。当p=1时,当p=0.5时logit(p)=0,当p=0时,故logit(p)的取值范围为。注意,式中等号右边的分数部分p/(1-p)是“事件发生”与“事件不发生”的概率比,称为优势(odd)。所以,logit变换有很好的统计解释,它是优势的对数。第33页/共47页8.5 二元二元Logistics回归分析回归分析8.5.1 基本概念及统计原理2 统计原理(2)Logistic回归模型设有k个因素x1,x2,xk影响y的取值,则称为二维Logistic回归模型,简称Logistic回归模型,其中的k个因

25、素x1,x2,xk称为Logistic回归模型的协变量。最重要的Logistic回归模型是Logistic线性回归模型式中,0,1,k是待估计的未知参数。可得第34页/共47页8.5 二元二元Logistics回归分析回归分析8.5.1 基本概念及统计原理2 统计原理(3)统计检验与线性回归一样,拟合时也要考虑模型是否合适、哪些变量该保留、拟合效果如何等问题。线性回归中常用的是决定系数R2,T检验、F检验等工具在这里均不再适用。在Logistic回归中常用的检验有-2对数似然检验(-2log(likelihood),2LL)、Hosmer和Lemeshow的拟合优度检验、Wald检验等。第35

26、页/共47页8.5 二元二元Logistics回归分析回归分析8.5.2 二元Logistics回归SPSS实例分析【例8-5】诊断发现运营不良的金融企业是审计核查的一项重要功能,审计核查的分类失败会导致灾难性的后果。表8.23列出了66家公司的部分运营财务比率,其中33家在2年后破产(y=0),另外33家在同期保持偿付能力(y=1)。请用变量x1(未分配利润/总资产)、x2(税前利润/总资产)和x3(销售额/总资产)拟合一个Logistic回归模型。第1步 分析。共有3个自变量,均是定量数据类型,而因变量是定性的,取值有两种状态(0和1),这是一个典型的可用二元Logistic回归解决的问题

27、。第2步 数据组织。定义三个自变量x1,x2和x3,再定义因变量y,输入数据并保存。第3步 二元Logistic回归分析设置。第36页/共47页8.5 二元二元Logistics回归分析回归分析8.5.2 二元二元Logistics回归回归SPSS实例分析实例分析第第4步步 主要结果及分析主要结果及分析(1)下表是个案处理摘要信息,给出了数据进入模型的记录数。第37页/共47页8.5 二元二元Logistics回归分析回归分析8.5.2 二元Logistics回归SPSS实例分析第4步 主要结果及分析(2)下表是因变量的赋值表,在SPSS中,默认将二分类变量中出现次数较多的赋值为1。本例比较特

28、殊,二分类变量的两种情况出现的次数是一样的,从表格中可以看出,将“两年后破产”赋值为0,“两年后仍有偿付能力”赋值为1。第38页/共47页8.5 二元二元Logistics回归分析回归分析8.5.2 二元Logistics回归SPSS实例分析第4步 主要结果及分析(3)下表是模型初始分类预测表,此时模型中不含任何自变量,只包含常数项。表格左方代表实际观测值,右方代表模型的预测值和正确率。此时预测所有公司在两年后仍有偿付能力,预测的正确率为50%。第39页/共47页8.5 二元二元Logistics回归分析回归分析8.5.2 二元Logistics回归SPSS实例分析第4步 主要结果及分析(4)

29、下表给出了模型系数的检验结果,其中常数项系数为0.000,其显著性概率为1,可见常数项不显著。x1,x2和x3的相伴概率分别是0.000,0.000和0.094,如果以5%为置信的话,x1和x2的系数是显著的。第40页/共47页8.5 二元二元Logistics回归分析回归分析8.5.2 二元Logistics回归SPSS实例分析第4步 主要结果及分析(5)下表是模型系数的 Omnibus检验结果。共采用了三种检验方法,分别是步与步间的相对似然比检验、块(Block)间的相对似然比检验和模型间的相对似然比检验。由于本例中只有一个自变量组且采取强行进入法将所有变量纳入模型,所以三种检验方法的结果

30、是一致的,模型有显著的统计意义。第41页/共47页8.5 二元二元Logistics回归分析回归分析8.5.2 二元Logistics回归SPSS实例分析第4步 主要结果及分析(6)下表是模型情况摘要表。主要给出了对数似然值的两个决定系数,从数据上看,模型的拟合度不错。第42页/共47页8.5 二元二元Logistics回归分析回归分析8.5.2 二元Logistics回归SPSS实例分析第4步 主要结果及分析(7)下表是模型的分类预测情况表。此时模型的预测准确率已达到97%。第43页/共47页8.5 二元二元Logistics回归分析回归分析8.5.2 二元Logistics回归SPSS实例

31、分析第4步 主要结果及分析(8)下表是Logistic模型的拟合结果。表格从左到右依次表示变量及常数项的系数值(B)、标准误差(S.E.)、瓦尔德(Wald)卡方值、自由度(df)、显著性概率、Exp(B)。由于各回归系数均为正数,取相应的指数后会大于1,表示x1,x2和x3的取值越大,“两年后具有偿付能力”的可能性比“两年后破产”的可能性就越大,其Logistic回归模型为则有若预测值p的概率小于0.5,则样本被归于“两年后破产”组,相对的,若预测值p的概率大于0.5,则样本被归于“两年后有偿付能力”组,其预测结果值(局部)如下图所示,其中PRE_1表示预测概率值,PGR_1表示预测分类结果值。第44页/共47页8.5 二元二元Logistics回归分析回归分析8.5.2 二元Logistics回归SPSS实例分析第4步 主要结果及分析第45页/共47页The End第46页/共47页感谢您的观看!第47页/共47页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > PPT文档

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁