SPSS回归分析(精彩).pdf

上传人:asd****56 文档编号:69464737 上传时间:2023-01-04 格式:PDF 页数:74 大小:949.98KB
返回 下载 相关 举报
SPSS回归分析(精彩).pdf_第1页
第1页 / 共74页
SPSS回归分析(精彩).pdf_第2页
第2页 / 共74页
点击查看更多>>
资源描述

《SPSS回归分析(精彩).pdf》由会员分享,可在线阅读,更多相关《SPSS回归分析(精彩).pdf(74页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、SPSS回归分析回归分析简介?探察变量之间的数量变化规律,并通过一定的数学表达式来描述这种关系,进而确定一个或几个变量的变化对另一个变量的影响程度?回归分析是研究变量间统计关系的方法。侧重考察回归分析的类型?因变量与自变量都是定量变量的回归分析?回归分析?因变量是定量变量,自变量中有定性变量的回归分析?含有哑变量的回归分析?因变量是定性变量的回归分析Logistic回归分析?Logistic回归分析一元线性回归分析?一元线性回归(简单线性回归):研究两个变量间的统计关系。?应用例子?某高档消费品的销量与城镇居民收入?储蓄额与居民收入。?工业产值与用电量。?某只股票的收益率和大盘指数的收益率?企

2、业的利润率和资产?商品的销量和广告投入一元线性回归分析?一元线性回归模型?通过一定数量的样本观测值,用最小二乘法求解出回归方程?但是只有当满足一定的假设条件下,样本数据的最小二乘估计才是总体参数的最佳无偏估计。一元线性回归分析?回归模型的进一步说明?又称偏回归系数partial regression coefficient,简称回归系数。表示其它变量不变,x变化时所预测y的平均变化率一元线性回归分析?回归方程的假定条件?正态性假定?零均值假定?等方差假定?独立性假定以上假定条件全部满足时,回归方程才有意义一元线性回归分析?正态性假设:要求总体误差项服从正态分布。如果违反这一假设则最小二乘估计不

3、再是最佳无偏估计,不能进行区间估计。(如果不涉及假设检验和区间估计,则此假定可以忽略)?零均值性:即在自变量取一定值的条件下,其总体各误差项的条件平均值为零。如果违反这一假设则由最小二乘估计得到的估计不再是无偏估计?等方差性:即在自变量取一定值的条件下,其总体各误差项的条件方差为一常数。如果违反这一假设则最小二乘估计不再是有效估计,不能进行区间估计?独立性假设:误差项之间相互独立(不相关),误差项与自变量之间应相互独立如果违反这一假设则误差项之间可能出现序列相关,最小二乘估计不再是有效估计。回归分析?AnalyzeRegression?可实现:?线性回归:?简单线性回归和多元线性回归,由Lin

4、ear过程实现?分类变量为因变量的回归?二项Logistic回归?多项Logistic回归?Ordinal回归?Probit回归?非线性回归?曲线估计?非线性估计?权重估计?两阶最小二乘?最优尺度回归分析?分析步骤?做出散点图?观察变量间的趋势。多个变量则做出散点图矩阵、重叠散点图和三维散点图?考察数据的分布,做必要的预处理分析变量的正态性和方差齐等问题。?进行直线回归分析?残差分析,检查残差的独立性和正态性?强影响点的诊断和多重共线性问题的判断回归分析?常用指标?偏回归系数:反映相应一个自变量上升一个单位时,应变量取值的变动情况?决定系数R2即相应的相关系数的平方,用R2表示。反映应变量y的

5、全部变异中能够通过回归关系被自变量解释的比例。R2越接近1越好。多元回归时,决定系数缺乏可靠性,此时可参考调整的决定系数R2回归分析?回归直线意义的F检验?统计量F=平均回归平方和/平均残差平方和。若F值过小说明自变量对因变量的解释力度很差,拟合的回归直线没有意义,相反若概率值(SPSS中以sig表示,越小越好)?残差的独立性检验?Durbin-Watson检验的参数D的取值范围是0DLinear?Dependent:人均食品支出,Independent(s):人均收入?设置Statistics,Plot选项回归分析SPSS实现?部分输出结果?常数项的检验结果是其影响不显著的,所以需要进一步改

6、善模型,考虑建立不含常数项的回归方程回归分析SPSS实现?不含常数项的回归模型的部分输出结果回归诊断?诊断模型:残差分析?残差分析用于判断你对模型的假定是否符合:?线性关系;?误差项等方差;?误差项相互独立;?误差项正态分布;?还可以检测出异常值和有影响的点回归分析SPSS实现?残差分析结果回归分析SPSS实现回归诊断异常值探查?SPSS中设定和检测异常值?Regression-Linear-Statistics?ResidualsCase diagnostics:设定超过几倍标准差的观测作为异常值(Outliers outside n standard deviations)?残差散点图回归

7、诊断异常值探查?以数据”人均食品支出.sav“,为例,进行异常点检?Regression-Linear-Statistics?Residuals-case diagnostics,并选中outlier outside.,填入2?Plots:Scatter:ZRESID-Y,ZPRED-X,做残差与预测值的散点图回归分析异常值探查?输出结果线性模型意味什么?线性模型意味什么??因变量和自变量?事实上,只要系数之间是线性组合的,并可通过变换可转换为线性方程的,都可尝试用线性模型进行拟合一般线性模型的假设一般线性模型的假设?一般线性模型潜在的一些假设?回归方程具有特定的形式。例如,因变量表示为截距、

8、自变量的线性组合,及残差的和。不满足这一假设,可能原因?忽略了重要的自变量?包含了不相关的自变量?非线性因变量和自变量之间的关系是非线性的?变动的参数数据收集期间,方程中参数不是常数?非可加性自变量中某个给定变量的影响是附随着其它变量的?残差为零均值。违反该假设,易导致截距的有偏估计一般线性模型的假设一般线性模型的假设?残差不是自相关的?所有自变量都是非随机的?观测数大于未知系数?在解释变量之间不存在确切的线性关系练习?数据:world95.sav?目的:利用生育率(fertility)预测妇女的平均预期寿命(lifeexpf)?要求:?探索性分析两个变量,探察两个变量中是否存在异常点?您获得

9、的对两个变量的哪些认识??做两个变量的散点图,建立两个变量的线性回归模型,是否合理呢??利用生育率来预测妇女的预期寿命。并设置相关选项,以进一步检验关于线性回归的一些假定此数据满足吗?并进行回归诊断,对模型的系数进行解释。从输出结果,您是否可以得出如果妇女多要一个小孩对她的寿命有多大影响吗?练习?数据:waste.sav?要求:?提出有意义的问题有时比解决问题更重要?利用学过的统计方法,看看您能够进行哪些分析,从各种分析中,您能够得出哪些有意义的结论多元线性回归分析多元回归分析?研究多个变量间的关系,因变量如何受到多个自变量的影响,用多个自变量预测因变量的值?多元线性回归是研究多个变量间因果关

10、系的常用方法之一?多个变量中有一个是因变量。其它的变量都是自变量,个数在两个以上?每个自变量和因变量之间的关系都是线性的?例:?超市中商品的价格、摆放位置、促销手段如何影响销售量;?如何用客户的个人资料(职业、收入、家庭成员人数、婚姻状况、是否有抵押等)进行信用预测;?连锁旅店的利润主要受哪些因素影响;?宏观经济指标预测多元线性回归分析?多元线性回归的方程?为偏回归系数?表示在其它变量保持不变的情况下,自变量变动一个单位所引起的因变量y的平均变动。?回归方程的显著性检验(模型拟合效果的检验)?自变量的筛选?多重共线性问题?影响点的探察12p、i多元线性回归分析方程的检验?认识?总变差的分解:?

11、判定系数:?多重相关系数R?调整(修正)的判定系数:=2211 1(1 )nnpAdj RR=2/RS S R S S T2R=+S S TS S R S S E多元线性回归分析方程的检验?问题:因变量和所有自变量的集合之间的线性关系是否显著??检验假设:?利用F统计量,构造F统计量及拒绝域?结论=L012:0pH=/(1)(,1)S S R pMS RMS ES S E n pFF p n p多元线性回归分析回归系数的检验?目的:检验每个自变量对因变量的线性影响是否显著?检验假设:?利用t检验,构造t统计量及拒绝域?结论=01:0 :0iiHH多元线性回归分析自变量筛选?自变量筛选的目的?多

12、元回归分析引入多个自变量。如果引入的自变量个数较少,则不能很好的说明因变量的变化;?并非自变量引入越多越好?有些自变量可能对因变量的解释没有贡献,留在模型中的自变量应该是对因变量的变化贡献较大的变量?自变量间可能存在较强的线性关系,即:多重共线性,因而不能全部引入回归方程?多重共线性问题多元线性回归分析自变量筛选?自变量筛选方法?全回归法Enter?向前删除法Forward?向后删除法Backward?逐步回归法Stepwise?强迫剔除法Remove多元线性回归分析SPSS实现?例:一汽车工业集团跟踪调查了其不同车型的销售情况,该集团希望建立合理的模型,以期发现不同类型的车型与销售额的关系,

13、以探察影响销售额的模型car_sales.sav?SPSS实现:Analyze-Regression-Linear?Log-transformed sales-Dependent(这是一种经验做法,因为对数销售额比销售额更接近正态分布)?Vehicle type typeFuel efficiency(mpg)-Independent(s)?Statistics选项:Estimates,Model fit?以上设置,将建立Vehicle type typeFuel efficiency(mpg)等10个变量为自变量,对数销售额为因变量的多元回归模型多元线性回归分析SPSS实现?输出结果:?见下

14、面的方程分析表从模型的F检验的结果来看,方程是有意义的。?从以上R2看出,模型解释了对数销售额近一半的变差多元线性回归分析SPSS实现?近一步分析,我们希望找出哪些自变量对销售额的影响更大??可以通过标准化系数的绝对值大小,衡量哪个变量对因变量的影响最大?通过标准化系数估计值,可以看出Price in thousands对数销售额的影响较Vehicle Type大多元线性回归分析SPSS实现?尽管从以上的输出结果,模型看似较好,但是从下表我们发现?偏回归系数中有很多是非显著的,表明它们相应的自变量可能对销售额并没有显著影响,因此模型中引入这些变量 并没有什么实际意义!多重共线性问题?出现上述矛

15、盾结果的原因是什么呢??以上的现象正是我们在多元回归中必须关注的多重共线性多重共线性问题?在多元线性回归模型中,多重共线性(多重共线性(MuticollinearityMuticollinearity)是指自变量之间存在线性相关的关系?多重共线性存在时会使得系数估计的标准误差增大,从而使得模型的预测精度会大大地降低。我们将无法确定任一自变量对因变量的单独影响。单个系数的符号可能与实际不符多重共线性问题?多重共线性的标志?R平方较大但没有几个显著的t统计量,预示着多重共线性的存在。实际上,有可能回归方程的F统计量高度显著,而每个t统计量不显著?一对或多对解释变量的简单相关系数相对比较高可能意味着

16、多重共线的存在?例:从前面的多重回归分析的模型的输出结果,我们已经看到模型整体是显著的,但是对于模型系数的检验却表明,很多变量对Sales的影响并非显著。表明前面所建立的模型很可能存在共线性的问题识别多重共线性?SPSS提供了多种共线性的诊断方法,包括:容限法、方差膨胀因子法、特征值方法和方差比例法?相关说明:?容限(容差)容限(容差):即某一自变量不能被其它变量解释的变差占其总变差的百分比。因此容限越小表明该变量与其它变量的相关性越强?方差膨胀因子方差膨胀因子(Variance Inflation Factors,简记作VIFVIF):刻画了相比多重共线性不存在时回归系数估计的方差增大了多少

17、。VIFVIF越大说明多重共线性问题越严重。其中是自变量关于模型中其余自变量线性回归模型的。称为容限经验法则:VIF 10=2111jjjVIFRTOL2jRjx2RjTOL识别多重共线性?特征值法?当有的特征值接近于0时,表明变量间具有高度的相关性,数据值的改变可能导致系数估计较大改变?条件指数?条件指数大于15说明可能存在共线性的问题,条件指数大于30时,说明有严重的共线性问题?方差比例法?对于大的条件指数,如果同时存在两个以上变量的方差分量大于50,则说明这些变量间存在共线性的问题多重共线性问题SPSS实现?续car_sales.sav分析?Statistics-Part and par

18、tial correlations,Collinearitydiagnostics多重共线性问题SPSS实现?输出?其中Zero-order correlation即Pearson correlation,简单相关系数,part and partial correlation 指部分相关和偏相关。可以看到:“Price in thousand”的部分相关和偏相关系数相对一阶零相关系数,减少很多,这表明“Price”对Sales的影响中,一部分是由于与Price有关的自变量产生的。多重共线性诊断SPSS实现?从容限(tolerance)可以看出,对于给定的自变量,其变化程度大约有70%-90%是

19、可以通过其它变量来解释的多重共线性问题SPSS实现?从方差膨胀因子(VIF)输出结果来看,最小值为3.293.通常方差膨胀因子大于2就可能存在共线性的问题多重共线性问题SPSS实现?Linear Regression-Statistics?collinearity diagnostics 进行共线性“诊断”?大部分特征值接近于0,表明自变量之间是高度线性相关的,即便是自变量的微小变动,都可能导致回归系数估计值的很大波动多重共线性问题SPSS实现?输出的条件数进一步印证了该模型的高度共线性性。注意到,大多数自变量的条件数大于15多元线性回归分析-逐步回归分析?如何来解决共线性的问题??共线性问题

20、不仅增大模型复杂度,而且降低了模型精度!?如何建立恰当模型,使模型仅仅包含有用的变量??逐步回归分析逐步回归分析可以克服共线性,因为此时模型将只保留对因变量有一定影响的变量?Linear Regression?Method-stepwise(逐步)多元线性回归分析-逐步回归分析?部分输出结果?由上表可以看出:逐步回归方法最终选择price in thousands(价格),Wheelbase,Engine size,horsepower建立模型?回归系数均是显著的,即所选因变量都是对Sales有显著影响的多元线性回归分析-逐步回归分析?只选入两个自变量建立模型,那么模型整体的精确性如何??可以

21、看出最终确定的模型是有意义的10个预测因子2个预测因子多元线性回归分析-逐步回归分析?多重共线性性是否依然存在??从多重共线性的“诊断”结果可以看出,表明逐步回归的方法克服了多重共线性的问题,但是似乎还存在一些问题?原因何在呢?多元线性回归分析-逐步回归分析?关于方程系数的检验能否进一步改进?多元线性回归分析-逐步回归分析?去掉截距项后的部分输出结果多元线性回归分析-逐步回归分析?通过了模型及其系数显著性检验和共线性性诊断,有必要理解模型的意义!?模型最终选择价格(price)和大小(指Wheelbase-z轴距大小),及类型(Vehicle type)作为预测变量.可以看出价格对销量Sale

22、s的影响是负面的,即价格升高销量将下降,而对于Wheelbase,这是越大越有利于销售。应该注意Vehicle type的解释,它的系数表明在其它同等情况下,卡车(truck)比汽车(automobile)的销量好?结论:基于以上的模型,我们可以说车型大且便宜的卡车销量相对其它型车销量好残差分析?模型的残差中蕴含着丰富的信息,通过分析残差可以实现对所建模型的相关诊断?几种残差简介?残差?标准化残差?删除残差?标准化残差?学生残差?学生删除残差多元线性回归分析-回归诊断?多元线性回归的回归诊断?检验模型假定是否成立?与一元线性回归一样,通过残差分析,检验有关假定是否成立,如正态性、独立性、等方差

23、性等?异常值探查?通过标准化残差来探察?影响点探查?所谓影响点,是指其非标准化残差并不大,但删去后回归直线发生很大改变的点?影响点的检测主要包括以下几种方法?与杠杆率有关的检测?逐步排除异常个案?是否影响回归系数的方差多元线性回归分析-回归诊断?影响点的检测方法?与杠杆率有关的检测?LEVER centered leverage,是各观测自变量的各取值在模型中作用的度量。该值越大,表明影响力越大。一般认为超过2(p/N),则影响力过大?COOKs距离,用于衡量第i个观测被删除后,回归系数的改变。是残差和中心化杠杆率的函数。Cooks 值越大,影响力越强。经验上,一般COOKs距离大于1,通常认

24、为是影响点?Mahanobis距离:为杠杆值的n-1倍,是自变量上个案的值与所有个案的平均值相异程度的度量。大的Mahalanobis 距离表示个案在一个或多个自变量上具有极值多元线性回归分析-回归诊断?影响点的检测方法?逐步排除异常个案?回归系数的变化及其标准化?DfBeta,从模型中删去一个特定观测后,比较回归系数的前后变化?标准化DfBeta,通常该值大于2/sqrt(n)时,认为是影响点?预测值变化及其标准化?DfFit从模型中删除某个观测后引起的预测值的变化?标准化DfFit,通常默认的标准是该值大于2/sqrt(p/n)时,为影响点。其中p为包括常数项的参数个数多元线性回归分析-回

25、归诊断?影响点的检测方法?是否影响回归系数的方差?协方差比例,指的是个案对参数估计的“方差协方差矩阵”的影响度,等于删除后协方差矩阵行列式/全部个案的协方差矩阵的行列式、接近于1时,表明影响不大。经验上|协方差比例1|3(P/N)的点可视为影响点多元线性回归分析-回归诊断?以Car_sales.sav逐步回归模型为例?Linear Regression?Plots选项:Scatter:SDRESID-Y,ZPRED-X,选择Histogram?Save选项:Predicted Values,Residuals均选择Standarized,Distances:Cooks,Leverage?Sta

26、tistics选项-Residuals:选择Casewise diagnostics,选中Outliers outside,并填入“2”(即把绝对值超过2倍标准差的标准化残差作为“Outliers”)多元线性回归分析-回归诊断?部分输出结果?标准化残差的直方图显示出,除个别观测外,残差基本上服从正态分布?进一步探查这些”个别观测”,看以下Casewise diagnostics的输出结果多元线性回归分析-回归诊断?Casewise diagnostics 输出结果?”3000GT”与“Cultass”具有最大的负的残差,也就是说相对于其它型号的汽车,这两种型号的汽车市场销量要差一些多元线性回归

27、分析-回归诊断?残差的进一步分析:残差对选入模型的各自变量的散点图?残差对价格(Price in thousands)的散点图:?注:若模型建立的充分,标准化残差分布应该与自变量无关,并且基本以0为中心,在-2,2内上下波动多元线性回归分析-回归诊断?标准化残差对Wheelbase及Vehicle type的散点图:?“残差”中蕴藏着无穷奥妙,实际问题中要充分利用残差分析,来建立尽可能优良的模型多元线性回归分析-回归诊断?影响点的探查:SPSS实现?继续对“car_sales.sav”的分析?Linear Regression?Save-Distances:选择Cooks,Leverage v

28、alues(SPSS将保存这些变量,可以进行影响点的分析)?GraphsScatter/Dot?Cooks Distance-Y Axis,centered leverage value-X Axis?Model-Label Cases by多元线性回归分析-回归诊断?从输出结果可以看出,“3000GT”具有最大的Cooks距离(Cooks Distance),但是它的中心杠杆率(Centered Leverage Value)较小,因此该观测并不会模型参数的估计有太大的影响?再看右下角CL500”等观测,尽管它们具有较大的中心杠杆率,但是Cooks 距离确较小,所以这些观测可能并不会对模型参

29、数的估计有过度的影响?但是观测“SL-Class”同时具有较大的Cooks距离和中心杠杆率,所以可以认为SL-Class相应的观测为影响点多元线性回归分析-回归诊断?以上通过散点图的方法,探查影响点。另外,也可以通过各观测对应的标准化DfBeta(s),DfFit的序列图(sequence),来探查影响点?Linear Regression?Save选项:选择算Stardardized DfBeta(s),StardardizedDfFit,则SPSS将把这些变量保存到数据集?Graph-sequence SDF_1-Variables,ok以上设置将生成DFFIT的序列图?Graph-seq

30、uence SDB0_1,SDB1_1,SDB10_1-variables,ok该设置将生成DfBeta(s)序列图多元线性回归分析-回归诊断?输出结果(注:按照默认标准,此时DfFit)?从以上序列图中很明显地可以看出,Prowler相应的观测为强影响点多元线性回归分析-回归诊断练习?数据:world95.sav?要求:建立female life expectancy关于fertility,gross demesticproduct(GDP)/capita,density of population,percent of people living in cities,and female

31、literacy的多元线性回归模型。具体问题如下?先利用探索性分析,了解这些预测因子(自变量)的分布情况,是否有些国家在这些变量上的取值同时是异常的?利用散点图了解female life expantancy与其余几个自变量之间的关系,存在明显的异常点吗??建立female life expectancy关于以上所列出的几个自变量的线性回归方程。描述该回归模型。哪个变量是显著的预先因子呢?哪个变量是最好的预测因子呢?线性回归的假定满足吗?是否存在可能影响结果的异常观测呢?练习?数据:world95.sav?要求:首先利用逐步回归的方法,建立female life expectancy关于fer

32、tility,gross demestic product(GDP)/capita,density of population,percent of people living in cities,and female literacy,population increase和the log of population to predict female lift expectancy,最佳的拟合模型是什么??利用backward(向后)方法,同样利用以上的因变量和自变量建立回归方程,两种方法拟合出的回归方程一致吗?练习?数据:world95.sav?要求:对于以上练习中,由backward(

33、向后)方法建立的回归方程进行共线性诊断。您需要完成以下练习?对该方法所选出的自变量进行相关性分析,是否存在明显的迹象表明潜在的共线性的存在呢??建立female life expectancy关于backward方法所出来的预测因子之间的线性回归方程,并进行共线性诊断。您有发现共线性现象存在?存在的话,是什么呢?如果时间允许的话,试图找到其它解决共线性的办法?移出变量female literacy,重新建立回归方程。是否共线性问题有所减轻呢?如果仍存在共线性问题,现在是否可以忽略呢。?移出变量female literac,重新建立female life expectancy关于backward方法所出来的预测因子之间的线性回归方程,并要求进行影响点探察,包括标准化残差,Cooks距离,以及其它的您偏好的指标练习?利用 Case Summarizes(个案汇总)过程来列出这些统计量的取值。记得把变量country添加到变量列表中,以便识别个案。您有发现异常值吗?根据汇总结果,您是否会建议在分析中移出一些国家呢?为什么??重新以上建立回归方程,但不包括country变量为,Kuwait.Saudi Arabia和United Arab Emirates的个案。这次您得出什么结果呢?异常点的问题解决了吗?

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁