《多重线性回归.pptx》由会员分享,可在线阅读,更多相关《多重线性回归.pptx(54页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1.1 1.1 多重回归分析的一般步骤多重回归分析的一般步骤一、多重线性回归分析的知识回顾1 1、确定回归方程中的、确定回归方程中的解释变量解释变量和和被解释变量被解释变量2 2、确定回归模型、确定回归模型3 3、建立回归方程建立回归方程4 4、对回归方程进行检验对回归方程进行检验5 5、利用回归方程进行预测、利用回归方程进行预测第1页/共54页1.2 多重回归分析的数据格式第2页/共54页1.3 多重线性回归的数学模型回归常数回归常数偏回归系数偏回归系数1.4 多重线性回归的应用条件线性、独立、正态、齐性。线性、独立、正态、齐性。第3页/共54页1.5.1 回归方程的显著性检验检验被解释变量
2、和所有解释变量全体之间线性关系是否显著,即用线性模型来描述它们之间的关系是否恰当。1.5 多重回归方程的检验与评价检验步骤:1)建立检验假设,确定检验水准H0:各个偏回归系数同时为0;H1:各个偏回归系数不全为0。=0.05第4页/共54页2)计算统计量3)确定P值,作出推断结论接受原假设即回归系数全为0,回归方程无效;接受备择假设,即回归系数不全为0,自变量与因变量的关系用线性关系表示有统计学意义。第5页/共54页1.5.2 回归系数的显著性检验检验的是回归方程中每个解释变量与被解释变量之间是否存在显著的线性关系。检验步骤:1)建立检验假设,确定检验水准H0:某一回归系数为0;H1:某一回归
3、系数不为0。=0.052)计算t 统计量3)确定P值,作出推断结论第6页/共54页1.5.3 残差分析残差是指实际样本值与回归方程计算所得的预测值之差。如果回归方程能较好地反映被解释变量的特征和变化规律,那么残差序列应不包含明显的规律和趋势。残差分析主要任务:残差是否服从均值为0的正态分布、是否为方差齐性、残差序列是否独立、借助残差探测样本中的异常值。第7页/共54页1.5.4 回归方程的拟合优度检验检验回归方程对样本数据的代表程度。计算的统计量称为复相关系数R或确定系数R2。复相关系数R衡量模型中所有自变量与因变量的线性相关程度,在心理研究中R0.4即可。确定系数R2表示因变量的总变异中可由
4、回归模型中自变量解释的部分所占的比例,R2越大越好。第8页/共54页二、多重线性回归SPSS实现例例1 1 有学者认为血清中低密度脂蛋白增高和高有学者认为血清中低密度脂蛋白增高和高密度脂蛋白降低是引起动脉硬化的一个重要原密度脂蛋白降低是引起动脉硬化的一个重要原因。现测量因。现测量3030名怀疑患有动脉硬化的就诊患者名怀疑患有动脉硬化的就诊患者的栽脂蛋白的栽脂蛋白A A、栽脂蛋白、栽脂蛋白B B、栽脂蛋白、栽脂蛋白E E、栽脂、栽脂蛋白蛋白C C、低密度脂蛋白中的胆固醇、高密度脂、低密度脂蛋白中的胆固醇、高密度脂蛋白中的胆固醇含量,资料见蛋白中的胆固醇含量,资料见data12-1data12-1
5、。分别。分别求出低、高密度脂蛋白中的胆固醇含量对栽脂求出低、高密度脂蛋白中的胆固醇含量对栽脂蛋白蛋白A A、栽脂蛋白、栽脂蛋白B B、栽脂蛋白、栽脂蛋白E E、栽脂蛋白、栽脂蛋白C C的回归方程。的回归方程。第9页/共54页第10页/共54页二、多重线性回归SPSS实现2.1 2.1 操作讲解操作讲解单击单击Analyze/Regression/LinearAnalyze/Regression/Linear打开线性回归分析主对话框,选择分析。打开线性回归分析主对话框,选择分析。第11页/共54页被解释变量被解释变量解释变量解释变量解释变量筛选方法解释变量筛选方法对样本数据筛对样本数据筛选,只对
6、符合选,只对符合条件数据分析条件数据分析加权最小加权最小二乘法回二乘法回归分析归分析统计量统计量图形图形保存保存其它选项其它选项选择一个变量作样本选择一个变量作样本数据点的标志变量,数据点的标志变量,该变量值将标在回归该变量值将标在回归分析的输出图形中分析的输出图形中定义不同的定义不同的分析模块分析模块第13页/共54页第14页/共54页统计量对话框统计量对话框第15页/共54页统计量对话框统计量对话框第16页/共54页统计量对话框统计量对话框第17页/共54页第18页/共54页图形对话框图形对话框表示被解释变量表示被解释变量标准化预测值标准化预测值标准化残差标准化残差剔除残差剔除残差调整预测
7、值调整预测值学生化残差学生化残差学生化剔除残差学生化剔除残差第19页/共54页图形对话框图形对话框上一组坐标上一组坐标的变量名的变量名绘制散点图绘制散点图下一组坐标下一组坐标的变量名的变量名直方图正态概率P-P图绘制标准化残差图依次绘制因变量 和各自变量残差 的散点图第20页/共54页第21页/共54页保存对话框保存对话框第22页/共54页保存对话框保存对话框保存预测值选项保存预测值选项保存非标准化预测值保存标准化预测值保存调整的预测值保存预测值的均值标准误差第23页/共54页保存对话框保存对话框第24页/共54页保存对话框保存对话框设置预测区间设置预测区间条件均数的条件均数的置信区间置信区间
8、个体个体y y值的值的置信区间置信区间设置置信度设置置信度第25页/共54页保存对话框保存对话框设置残差选项,设置残差选项,用于模型诊断用于模型诊断原始残差标准化残差采用t变换产生的残差,即学生化残差剔除残差,可发现可疑的强影响点学生化剔除残差第26页/共54页保存对话框保存对话框设置诊断影响点设置诊断影响点的统计量选项的统计量选项表示不考虑该观察值后回归系数的变化值标准化的回归系数变化值表示不考虑该观察值后预测值的变化值表示标准化预测值的变化值在多重回归中,表示不考虑该观察值后协方差矩阵与含该观察值协方差矩阵的比率第27页/共54页保存对话框保存对话框保存结果到新文件,默保存结果到新文件,默
9、认在当前数据文件中生认在当前数据文件中生成新变量成新变量新变量保存到新数据文件中第28页/共54页第29页/共54页设置变量筛选标准和缺省值处理方法话框设置变量筛选标准和缺省值处理方法话框解释变量进入或剔解释变量进入或剔除回归方程的标准除回归方程的标准表示以偏表示以偏F F统计量统计量的理论概率的理论概率值值为标准判定变量为标准判定变量是否进入或剔除是否进入或剔除回归方程。回归方程。表示若某一自变表示若某一自变量的偏量的偏F F统计量的统计量的概率值概率值P P小于小于0.050.05则该自变量进入则该自变量进入回归方程。回归方程。表示若某一自变表示若某一自变量的偏量的偏F F统计量的统计量的
10、概率值概率值P P大于大于0.100.10则该自变量剔除则该自变量剔除回归方程。回归方程。第30页/共54页设置变量筛选标准和缺省值处理方法话框设置变量筛选标准和缺省值处理方法话框回归方程中是回归方程中是否包含常数项否包含常数项缺失值处理方式凡是有缺失值的数据都不分析不分析进入模型变量有缺失值的记录用该变量的均数替代缺失值第31页/共54页自变量筛选方法选项自变量筛选方法选项不做筛选自变量全部进入模型逐步法,由Options对话框设置筛选标准强制剔除法后退法前进法第33页/共54页例例1 1 有学者认为血清中低密度脂蛋白增高和高有学者认为血清中低密度脂蛋白增高和高密度脂蛋白降低是引起动脉硬化的
11、一个重要原密度脂蛋白降低是引起动脉硬化的一个重要原因。现测量因。现测量3030名怀疑患有动脉硬化的就诊患者名怀疑患有动脉硬化的就诊患者的栽脂蛋白的栽脂蛋白A A、栽脂蛋白、栽脂蛋白B B、栽脂蛋白、栽脂蛋白E E、栽脂、栽脂蛋白蛋白C C、低密度脂蛋白中的胆固醇、高密度脂、低密度脂蛋白中的胆固醇、高密度脂蛋白中的胆固醇含量,资料见蛋白中的胆固醇含量,资料见data12-1data12-1。分别。分别求出低、高密度脂蛋白中的胆固醇含量对栽脂求出低、高密度脂蛋白中的胆固醇含量对栽脂蛋白蛋白A A、栽脂蛋白、栽脂蛋白B B、栽脂蛋白、栽脂蛋白E E、栽脂蛋白、栽脂蛋白C C的回归方程。的回归方程。2
12、.2 2.2 实例操作讲解实例操作讲解第34页/共54页第35页/共54页2.2.1 2.2.1 建立数据文件建立数据文件第36页/共54页2.2.2 2.2.2 操作步骤操作步骤第一步:单击第一步:单击Analyze/Regression/LinearAnalyze/Regression/Linear打开线性回归分析主对话框,打开线性回归分析主对话框,选择分析。选择分析。第37页/共54页第二步:选择低密度脂蛋白中的胆固醇含量进入因变量框,选择栽脂蛋白第二步:选择低密度脂蛋白中的胆固醇含量进入因变量框,选择栽脂蛋白A A、栽脂蛋白、栽脂蛋白B B、栽脂蛋白、栽脂蛋白E E、栽脂蛋白、栽脂蛋白
13、C C进入自变量框进入自变量框第38页/共54页第二步:选择低密度脂蛋白中的胆固醇含量进入因变量框,选择栽脂蛋白第二步:选择低密度脂蛋白中的胆固醇含量进入因变量框,选择栽脂蛋白A A、栽脂蛋白、栽脂蛋白B B、栽脂蛋白、栽脂蛋白E E、栽脂蛋白、栽脂蛋白C C进入自变量框进入自变量框第39页/共54页第三步:设置统计量对话框,选项如下图,单击确定返回;第三步:设置统计量对话框,选项如下图,单击确定返回;第40页/共54页第三步:设置统计量对话框,选项如下图,单击确定返回;第三步:设置统计量对话框,选项如下图,单击确定返回;第41页/共54页第四步:设置图形对话框,选项如下图,单击确定返回;初步
14、操作完成。第四步:设置图形对话框,选项如下图,单击确定返回;初步操作完成。第42页/共54页第四步:设置图形对话框,选项如下图,单击确定返回;初步操作完成。第四步:设置图形对话框,选项如下图,单击确定返回;初步操作完成。第43页/共54页结果解释。结果解释。第44页/共54页结果解释。结果解释。第45页/共54页第46页/共54页第47页/共54页第48页/共54页第49页/共54页第50页/共54页第51页/共54页练练1 1 有学者认为血清中低密度脂蛋白增高和高有学者认为血清中低密度脂蛋白增高和高密度脂蛋白降低是引起动脉硬化的一个重要原密度脂蛋白降低是引起动脉硬化的一个重要原因。现测量因。
15、现测量3030名怀疑患有动脉硬化的就诊患者名怀疑患有动脉硬化的就诊患者的栽脂蛋白的栽脂蛋白A A、栽脂蛋白、栽脂蛋白B B、栽脂蛋白、栽脂蛋白E E、栽脂、栽脂蛋白蛋白C C、低密度脂蛋白中的胆固醇、高密度脂、低密度脂蛋白中的胆固醇、高密度脂蛋白中的胆固醇含量,资料见蛋白中的胆固醇含量,资料见data12-1data12-1。分别。分别求出低、高密度脂蛋白中的胆固醇含量对栽脂求出低、高密度脂蛋白中的胆固醇含量对栽脂蛋白蛋白A A、栽脂蛋白、栽脂蛋白B B、栽脂蛋白、栽脂蛋白E E、栽脂蛋白、栽脂蛋白C C的回归方程。的回归方程。第52页/共54页作业作业预习 10.3第53页/共54页感谢您的观看!第54页/共54页