《第九章 回归分析(下).ppt》由会员分享,可在线阅读,更多相关《第九章 回归分析(下).ppt(30页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第九章第九章SPSS回归分析(下)回归分析(下)本章内容本章内容多元线性回归的回归诊断多元线性回归的回归诊断9.5 曲线估计曲线估计9.6 线性回归的衍生模型线性回归的衍生模型多元线性回归的回归诊断多元线性回归的回归诊断检验模型假定是否成立检验模型假定是否成立 与一元线性回归一样,通过残差分析,检验有关假定是否成立,如正态性、独立性、等方差性等。异常值探查异常值探查 通过标准化残差来探察影响点探查影响点探查 所谓影响点,是指其非标准化残差并不大,但删去后回归直线发生很大改变的点。它们将导致拟合模型偏向该数据点。影响点的检测主要包括以下几种方法:影响点的检测主要包括以下几种方法:(1)与杠杆率有
2、关的检测 (2)逐步排除异常个案 (3)是否影响回归系数的方差影响点的检测方法影响点的检测方法与杠杆率有关的检测与杠杆率有关的检测LEVER centered leverage,是各观测自变量的各取值在模型中作用的度量。该值越大,表明影响力越大。该值越大,表明影响力越大。一般认为超过2(p/n),则影响力过大COOKs距离,用于衡量第i个观测被删除后,回归系数的改变。是残差和中心化杠杆率的函数。Cooks 值越大值越大,影响力越强。,影响力越强。经验上,一般COOKs距离大于1,通常认为是影响点 Mahanobis距离:为杠杆值的为杠杆值的n-1倍倍,是自变量上个案的值与所有个案的平均值相异程
3、度的度量。大的Mahalanobis距离表示个案在一个或多个自变量上具有极值影响点的检测方法影响点的检测方法逐步排除异常个案逐步排除异常个案回归系数的变化及其标准化回归系数的变化及其标准化 DfBeta,从模型中删去一个特定观测后,比较回归系数的前后变化。标准化DfBeta,通常该值大于2/sqrt(n)时,认为是影响点。预测值变化及其标准化预测值变化及其标准化 DfFit从模型中删除某个观测后引起的预测值的变化 标准化DfFit,通常默认的标准是该值大于2/sqrt(p/n)时,为影响点。其中p为包括常数项的参数个数影响点的检测方法影响点的检测方法是否影响回归系数的方差是否影响回归系数的方差
4、 协方差比例,指的是个案对参数估计的“方差协方差矩阵”的影响度,等于删除后协方差矩阵行列式/全部个案的协方差矩阵的行列式、接近于1时,表明影响不大。经验上|协方差比例1|3(p/n)的点可视为影响点Save选项,该窗口将回归分析的某些结果以SPSS变量的形式保存到数据编辑窗口中,并可同时生成XML格式的文件,便于分析结果的网络发布。(1)Predicted Values框中:保存非标准化预测值、标准化预测值、调整的预测值和预测值的均值标准误差。(2)Distance框中:保存均值或个体预测值95(默认)置信区间的下限值和上限值。(3)Residual框中:保存非标准化残差、标准化残差等。(4)
5、Influence Statistics框中:保存剔除第i个样本后统计量的变化量。总结回归模型的建立步骤总结回归模型的建立步骤作出散点图,观察变量间的趋势。考察数据的分布,进行必要的预处理,分析变量的正态性、方差齐等问题,进行必要变换。进行直线回归分析,包括变量的选择,是否存在多重共线性等残差分析,残差间是否对立(DW检验),残差是否正态和存在异方差,通过图示法观察。强影响点的诊断和多重共线性问题的判断 只有只有5步全部通过才能认为是一个统计学上无误的步全部通过才能认为是一个统计学上无误的模型,才能于实际应用结合进行分析和预测。模型,才能于实际应用结合进行分析和预测。8.5 曲线估计曲线估计8
6、.5.1 曲线估计概述 变量间的相关关系中,并不总是表现出线性关系,非线性关系也是极为常见的。变量之间的非线性关系可以划分为本质线性关系和本质非线性关系。本质线性关系是指变量关系形式上虽然呈非线性关系,但可通过变量变换为线性关系,并最终可通过线性回归分析建立线性模型。本质非线性关系是指变量关系不仅形式上呈非线性关系,而且也无法变换为线性关系。本节的曲线估计是解决本质线性关系问题的。常见的本质线性模型有:1、二次曲线(Quadratic),方程为 ,变量变换后的方程为2、复合曲线(Compound),方程为,变量变换后的方程为3、增长曲线(Growth),方程为,变量变换后的方程为4、对数曲线(
7、Logarithmic),方程为 ,变量变换后的线性方程为5、三次曲线(Cubic),方程为,变量变换后的方程为6、S曲线(S),方程为 ,变量变换后的方程为7、指数曲线(Exponential),方程为,变量变换后的线性方程为8、逆函数(Inverse),方程为变量变换后的方程为9、幂函数(Power),方程为变量变换后的方程为10、逻辑函数(Logistic),方程为 变量变换后的线性方程为 SPSS曲线估计中,首先,在不能明确究竟哪种模型更接近样本数据时,可在多种可选择的模型中选择几种模型;然后SPSS自动完成模型的参数估计,并输出回归方程显著性检验的F值和概率p值、判定系数R2等统计量
8、;最后,以判定系数为主要依据选择其中的最优模型,并进行预测分析等。另外,SPSS曲线估计还可以以时间为解释变量实现时间序列的简单回归分析和趋势外推分析。8.5.2 曲线估计的基本操作 可通过绘制并观察样本数据的散点图粗略确定被解释变量和解释变量之间的相关关系,为曲线拟合中的模型选择提供依据。SPSS曲线估计的基本操作步骤是:(1)选择菜单AnalyzeRegressionCurve Estimation,出现窗口如下页所示。(2)把被解释变量选到Dependent框中。(3)曲线估计中的解释变量可以是相关因素变量也可是时间变量。如果解释变量为相关因素变量,则选择Variable选项,并把一个解
9、释变量指定到Independent框;如果选择Time参数则表示解释变量为时间变量。(4)在Models中选择几种模型。(5)选择Plot Models选项绘制回归线;选择Display ANOVA table输出各个模型的方差分析表和各回归系数显著性检验结果。至此,完成了曲线估计的操作,SPSS将根据选择的模型自动进行曲线估计,并将结果显示到输出窗口中。8.5.3 应用举例1、教育支出的相关因素分析 为研究居民家庭教育支出和消费性支出之间的关系,收集到1978年至2002年全国人均消费性支出和教育支出的数据。首先绘制教育支出和消费性支出的散点图。观察散点图发现两变量之间呈非线性关系,可尝试选
10、择二次、三次曲线、复合函数和幂函数模型,利用曲线估计进行本质线性模型分析。其中,教育支出为被解释变量,消费性支出为解释变量。2、分析和预测居民在外就餐的费用 利用收集到1978年至2002年居民在外就餐消费的数据,对居民未来在外就餐的趋势进行分析和预测。首先绘制就餐费用的序列图,选择菜单GraphsSequence。得到的序列图表明自80年代以来居民在外就餐费用呈非线性增加,90年代中期以来增长速度明显加快,大致呈指数形式,可利用曲线估计进行分析。由于要进行预测,因此在曲线估计主窗口中要单击Save按钮,出现如下窗口:Save Variables框中:Predicted values表示保存预
11、测值;Residual表示保存残差;Prediction interval表示保存预测值默认95置信区间的上限和下限值。Predict cases框中:只有当解释变量为时间时才可选该框中的选项。Predict from estimation period through last case表示计算当前所有样本期内的预测值;Predict through表示计算指定样本期内的预测值,指定样本期在Observation框后输入。本例希望预测2003年和2004年的值,应在Observation框后输入27。9.6 线性回归的衍生模型线性回归的衍生模型 在线性回归模型中如果遇到异方差、多重共线形和序
12、在线性回归模型中如果遇到异方差、多重共线形和序列相关等问题,必须通过相应的模型改进以消除,才列相关等问题,必须通过相应的模型改进以消除,才能进行解释和实际应用。以下简单介绍能进行解释和实际应用。以下简单介绍3个衍生模型个衍生模型及其在及其在SPSS中的实现。中的实现。加权最小二乘法(解决异方差问题)加权最小二乘法(解决异方差问题)岭回归(解决多重共线性问题)岭回归(解决多重共线性问题)最优尺度回归(解决自变量为定类或定序的问题)最优尺度回归(解决自变量为定类或定序的问题)在解决序列相关问题中,最直接和简单的方法就是加在解决序列相关问题中,最直接和简单的方法就是加入新的自变量,一般可以加入初次回
13、归的残差处理。入新的自变量,一般可以加入初次回归的残差处理。加权最小二乘法加权最小二乘法 如果出现异方差时采用最小二乘法分析,就会如果出现异方差时采用最小二乘法分析,就会使得结果最要收变异较大的数据影响,从而可能发使得结果最要收变异较大的数据影响,从而可能发生偏差。一般来说变异小的数据重要性较大,变异生偏差。一般来说变异小的数据重要性较大,变异大的数据重要性较小。如果能知道各数据的重要性大的数据重要性较小。如果能知道各数据的重要性并先加权后回归结果,能提高模型的精度和预测效并先加权后回归结果,能提高模型的精度和预测效果。但加权最小二乘法是有偏估计,在异方差不明果。但加权最小二乘法是有偏估计,在
14、异方差不明显或者错误使用权重时,效果不如显或者错误使用权重时,效果不如OLS。实现过程:实现过程:Analyze-regression-linearAnalyze-regression-weight estimationLinear过程过程 适用于知适用于知道具体的道具体的数据重要数据重要性变量,性变量,将该变量将该变量选入选入WLS 框框Weight Estimation过程过程 适用相关大适用相关大概的权数变概的权数变量,但其最量,但其最佳形式不知佳形式不知道,将该变道,将该变量选入量选入Weight variable 框框,并选择并选择权数变化的权数变化的形式。形式。应用举例应用举例假如
15、已知自变量假如已知自变量x和因变量和因变量y,进行回归分析,其,进行回归分析,其中中x为一平均数,分别由对应的为一平均数,分别由对应的n样本混合后计样本混合后计算出来,明显算出来,明显n越大越大x的变异越小,其权重则应的变异越小,其权重则应该越大。试利用数据该越大。试利用数据WLS.sav以以n为权数在两个为权数在两个过程中分布利用加权最小二乘法回归方程。过程中分布利用加权最小二乘法回归方程。岭回归岭回归 当数据存在多重共线性我们可以通过逐步回当数据存在多重共线性我们可以通过逐步回归剔除一些不必要的变量,这样可能会去掉一归剔除一些不必要的变量,这样可能会去掉一些我们想分析的变量,能否在保留所有
16、变量的些我们想分析的变量,能否在保留所有变量的基础上进行回归呢?基础上进行回归呢?答案是肯定的,我们可以通过岭回归做到答案是肯定的,我们可以通过岭回归做到这点,它实质是这点,它实质是OLS的改良,通过放弃无偏性,的改良,通过放弃无偏性,以损失部分数据、降低精度为代价来寻求效果以损失部分数据、降低精度为代价来寻求效果稍差但回归系数更符合实际的回归。稍差但回归系数更符合实际的回归。岭回归的原理及实现岭回归的原理及实现在多元回归方程中,用最小二乘估计求得的回归系在多元回归方程中,用最小二乘估计求得的回归系数值尽管是其真值数值尽管是其真值=(0,1,p)的无偏估计,的无偏估计,=(XX)-1XY,由于
17、存在多重共线性由于存在多重共线性|(XX)|接近零,使得估计接近零,使得估计估计值与实际值可能偏离较远,所以引进估计值与实际值可能偏离较远,所以引进(k)=(XX-kI)-1XY,k=0时为时为OLS,关键在如何选,关键在如何选取取k使得效果最好。通过语句实现:使得效果最好。通过语句实现:INCLUDESPSS所在路径所在路径Ridge Regression.spsRidgereg enter=自变量列表自变量列表/dep=因变量因变量/start=k起始值,默认起始值,默认0/stop=k终止值,默认终止值,默认1/inc=步长,默认步长,默认0.05应用举例应用举例通过ridgereg.sav,研究身长、头围和体重推测胎儿受精周龄。最优尺度回归最优尺度回归假如要研究年龄、居住地和受教育程度对生育子女数的影假如要研究年龄、居住地和受教育程度对生育子女数的影响,明显居住地和受教育程度分布是定类和定序变量,此响,明显居住地和受教育程度分布是定类和定序变量,此时不能用一般的线性回归。这时可以通过构造哑变量(虚时不能用一般的线性回归。这时可以通过构造哑变量(虚拟变量)或通过最优尺度回归,而后者综合解释能力更强。拟变量)或通过最优尺度回归,而后者综合解释能力更强。实现途径:实现途径:Analyze-Regression-Optimal ScalingThank you