《回归分析SPSS操纵.ppt》由会员分享,可在线阅读,更多相关《回归分析SPSS操纵.ppt(41页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、回归分析,回归分析主要解决以下几方面的问题: 通过分析大量的样本数据,确定变量之间的数学关系式。 对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。 利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。,2.1 统计学上的定义和计算公式,定义:一元线性回归分析是分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。, 研究问题 合成纤维的强度与其拉伸倍数有关,测得
2、试验数据如表9-1所示。求合成纤维的强度与拉伸倍数之间是否存在显著的线性相关关系。,2.2 SPSS中实现过程,表1强度与拉伸倍数的试验数据, 实现步骤,图1 在菜单中选择“Linear”命令,图2 “Linear Regression”对话框,图3 “Linear Regression: statistics”对话框,与回归系数相关的统计量,异常值诊断,报告残差超过2个标准差的被试,图4 “Linear Regression:Plots”对话框,调整预测值,输出标准化残差相对于因变量的散布图,标准化残差图,对应x值的残差图,图5 “Linear Regression:Save”对话框,预测值
3、,残差,本对话框用来定义存储进入数据文件的新变量,(1)输出的结果文件中的第一部分:,2.3 结果和讨论,1)决定系数R2 它表示在因变量y的总变异中可由回归方程所解释部分的比例。 0R21, 越接近于1, 说明回归方程效果越好。,2)校正的决定系数Adj R2 0AdjR21, 越接近于1, 说明回归方程效果越好。,即使自变量对Y无显著意义,R2也随方程中的变量个数增加而增加。Adj R2可以惩罚复杂模型。,截距 回归系数,结果显示:回归方程显著,即合成纤维的强度受拉伸倍数的显著影响,(2)第二部分 异常值分析,如果标准化残差超过2/-2,称为异常值outliers。 当样本量比较小,异常值
4、又会影响回归系数的估计时,应该关注异常值的影响。,异常值 a 不影响 异常值 b 影响,第i个观察值的学生化残差,考虑了用来计算残差的 值有不同的方差。这种调整能够使残差分析更加敏感地发现方差不齐。 学生化残差超过2和-2的点可认为是异常值,(3)第三部分 数据窗口的存储,1.7 利用回归方程进行估计和预测,均数的置信区间: 均数界值标准误 个体的容许区间(参考值范围): 均数界值标准差,可信区间与预测区间示意图,3.1 统计学上的定义,定义:在上一节中讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他
5、商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。,研究者往往是根据自己的经验或借鉴他人的研究结果选定若干个自变量,这些自变量对因变量的影响作用是否都有统计学意义还有待于考察。 在建立回归方程的过程中有必要考虑对自变量进行筛选,挑选出若干个与因变量作用较大的变量建立回归方程。剔除那些对因变量没有影响的变量,从而建立一个较理想和稳定的回归方程。,3.2 逐步回归,逐步回归的思想:,1. 开始方程中没有自变量,然后按自变量对y的贡献大小由大到小依次挑选进入方程,每选入一个变量,都要对进行检验,决定变量的取或舍。,2. 每一步都作一次如下的检验: H0
6、: p个自变量为好 H1 : p+1个自变量为好,采用F作为统计量。 SSE (H0 )-SSE (H1 ) F SSE(H1 )/ (n-p-2) 其中SSE (H0 )表示用p个变量回归的残差平方和 SSE (H1 )表示用p+1个变量回归的残差平方和。 若FF(界值),则拒绝H0 ,可决定增多相应的自变量; 否则,不拒绝H0 ,可决定不增加相应的自变量。, 研究问题 用多元回归分析来分析36个员工多个心理变量值(z1z5)对员工满意度my的预测效果,测得试验数据如表9-2所示。,3.2 SPSS中实现过程,表9-2员工多个心理变量值和员工满意度数据, 实现步骤,图7-7 “Linear
7、Regression”对话框(二),逐步回归,Enter:所有自变量强制进入回归方程,图3 “Linear Regression:Statistics”对话框,德宾-沃森自相关,观测值诊断,当自变量之间存在高度相关性,将引起回归方程估计结果不稳定,参数(回归系数)估计的标准误大大增加,称为共线性。 共线性诊断: 1)条件数(Condition Index): k30(严重) 2)方差扩大因子(VIF): 5或10,严重 3) Tolence(容忍度): .1 严重,图6 “Linear Regression:Options”对话框,(1)输出结果文件中的第一部分:,3.3 结果和讨论,(1)输
8、出结果文件中的第一部分:,3.3 结果和讨论,2)输出的结果文件中第二部分:,F检验的结果显示,三个回归方程都显著 1 H0 : B1=0 2 H0 : B1= B2=0 3 H0 : B1= B2= B3=0,非标准化回归方程: Y=7.337+.276Z1+e Y=14.129+.227Z1-3.301Z4+e Y=4.335+.268Z1-6.286Z4+10.188Z5+e,标准化回归方程: Y=.413Z1+e Y=.340Z1- .336Z4+ e Y=.401Z1- 6.639Z4 + .477Z5+e,多重回归的矩阵表达 1. 一般公式 2. 矩阵表示 3. 最小二乘估计,Ze
9、ro-Order,零阶相关/简单相关,Part Correlation,部分相关,Part correlation Correlation between Y and X1 when variable due to X2 has been partialed out of X1, but not out of Y.,Partial Correlation,偏相关,partial correlation of Y and X, controlling for other predictors. Simple correlation of Y and X, after all influences of predictors have been partialed out of both Y and X.,作业,等距、等级和分类变量的相关 一元回归 二元回归 各做一个分析,数据“作业.sav”,