《多重线性回归.ppt》由会员分享,可在线阅读,更多相关《多重线性回归.ppt(55页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、n一、多重线性回归的知识回顾一、多重线性回归的知识回顾n二、多重线性回归软件实现二、多重线性回归软件实现主要内容1.1 1.1 1.1 1.1 多重回归分析的一般步骤多重回归分析的一般步骤多重回归分析的一般步骤多重回归分析的一般步骤一、多重线性回归分析的知识回顾一、多重线性回归分析的知识回顾1 1 1 1、确定回归方程中的、确定回归方程中的、确定回归方程中的、确定回归方程中的解释变量解释变量解释变量解释变量和和和和被解释变量被解释变量被解释变量被解释变量2 2 2 2、确定回归模型、确定回归模型、确定回归模型、确定回归模型3 3 3 3、建立回归方程建立回归方程建立回归方程建立回归方程4 4
2、4 4、对回归方程进行检验对回归方程进行检验对回归方程进行检验对回归方程进行检验5 5 5 5、利用回归方程进行预测、利用回归方程进行预测、利用回归方程进行预测、利用回归方程进行预测1.2 1.2 多重回归分析的数据格式多重回归分析的数据格式1.3 1.3 多重线性回归的数学模型多重线性回归的数学模型回归常数回归常数回归常数回归常数偏回归系数偏回归系数偏回归系数偏回归系数1.4 1.4 多重线性回归的应用条件多重线性回归的应用条件线性、独立、正态、齐性。线性、独立、正态、齐性。线性、独立、正态、齐性。线性、独立、正态、齐性。1.5.1 1.5.1 回归方程的显著性检验回归方程的显著性检验检验被
3、解释变量和所有解释变量全体之间线性关检验被解释变量和所有解释变量全体之间线性关系是否显著,即用线性模型来描述它们之间的关系是否显著,即用线性模型来描述它们之间的关系是否恰当。系是否恰当。1.5 1.5 多重回归方程的检验与评价多重回归方程的检验与评价检验步骤:检验步骤:1 1)建立检验假设,确定检验水准建立检验假设,确定检验水准H0 0:各个偏回归系数同时为:各个偏回归系数同时为0 0;H1 1:各个偏回归系数不全为:各个偏回归系数不全为0 0。=0.05=0.052 2)计算统计量)计算统计量3 3)确定确定P值,作出推断结论值,作出推断结论接受原假设即回归系数全为接受原假设即回归系数全为0
4、 0,回归方程无效;,回归方程无效;接受备择假设,即回归系数不全为接受备择假设,即回归系数不全为0 0,自变量与,自变量与因变量的关系用线性关系表示有统计学意义。因变量的关系用线性关系表示有统计学意义。1.5.2 1.5.2 回归系数的显著性检验回归系数的显著性检验检验的是回归方程中每个解释变量与被解释变量检验的是回归方程中每个解释变量与被解释变量之间是否存在显著的线性关系。之间是否存在显著的线性关系。检验步骤检验步骤:1 1)建立检验假设,确定检验水准建立检验假设,确定检验水准H0 0:某一回归系数为:某一回归系数为0 0;H1 1:某一回归系数不为:某一回归系数不为0 0。=0.05=0.
5、052 2)计算)计算t t 统计量统计量3 3)确定确定P值,作出推断结论值,作出推断结论1.5.3 1.5.3 残差分析残差分析残差残差是指实际样本值与回归方程计算所得的预测是指实际样本值与回归方程计算所得的预测值之差。如果回归方程能较好地反映被解释变量值之差。如果回归方程能较好地反映被解释变量的特征和变化规律,那么残差序列应不包含明显的特征和变化规律,那么残差序列应不包含明显的规律和趋势。的规律和趋势。残差分析主要任务:残差是否服从均值为残差分析主要任务:残差是否服从均值为0 0的的正态正态分布、是否为分布、是否为方差齐性方差齐性、残差序列是否、残差序列是否独立独立、借、借助残差探测样本
6、中的助残差探测样本中的异常值异常值。1.5.4 1.5.4 回归方程的拟合优度检验回归方程的拟合优度检验检验回归方程对样本数据的代表程度。计算的统检验回归方程对样本数据的代表程度。计算的统计量称为计量称为复相关系数复相关系数R或或确定系数确定系数R2。复相关系数复相关系数R衡量模型中所有自变量与因变量的线衡量模型中所有自变量与因变量的线性相关程度,在心理研究中性相关程度,在心理研究中R0.40.4即可即可 。确定系数确定系数R2表示因变量的总变异中可由回归模型表示因变量的总变异中可由回归模型中自变量解释的部分所占的比例,中自变量解释的部分所占的比例,R2越大越好。越大越好。二、二、多重线性回归
7、多重线性回归SPSSSPSS实现实现例例例例1 1 1 1 有学者认为血清中低密度脂蛋白增高和高有学者认为血清中低密度脂蛋白增高和高有学者认为血清中低密度脂蛋白增高和高有学者认为血清中低密度脂蛋白增高和高密度脂蛋白降低是引起动脉硬化的一个重要原密度脂蛋白降低是引起动脉硬化的一个重要原密度脂蛋白降低是引起动脉硬化的一个重要原密度脂蛋白降低是引起动脉硬化的一个重要原因。现测量因。现测量因。现测量因。现测量30303030名怀疑患有动脉硬化的就诊患者名怀疑患有动脉硬化的就诊患者名怀疑患有动脉硬化的就诊患者名怀疑患有动脉硬化的就诊患者的栽脂蛋白的栽脂蛋白的栽脂蛋白的栽脂蛋白A A A A、栽脂蛋白、栽
8、脂蛋白、栽脂蛋白、栽脂蛋白B B B B、栽脂蛋白、栽脂蛋白、栽脂蛋白、栽脂蛋白E E E E、栽脂、栽脂、栽脂、栽脂蛋白蛋白蛋白蛋白C C C C、低密度脂蛋白中的胆固醇、高密度脂、低密度脂蛋白中的胆固醇、高密度脂、低密度脂蛋白中的胆固醇、高密度脂、低密度脂蛋白中的胆固醇、高密度脂蛋白中的胆固醇含量,资料见蛋白中的胆固醇含量,资料见蛋白中的胆固醇含量,资料见蛋白中的胆固醇含量,资料见data12-1data12-1data12-1data12-1。分别。分别。分别。分别求出低、高密度脂蛋白中的胆固醇含量对栽脂求出低、高密度脂蛋白中的胆固醇含量对栽脂求出低、高密度脂蛋白中的胆固醇含量对栽脂求出
9、低、高密度脂蛋白中的胆固醇含量对栽脂蛋白蛋白蛋白蛋白A A A A、栽脂蛋白、栽脂蛋白、栽脂蛋白、栽脂蛋白B B B B、栽脂蛋白、栽脂蛋白、栽脂蛋白、栽脂蛋白E E E E、栽脂蛋白、栽脂蛋白、栽脂蛋白、栽脂蛋白C C C C的回归方程。的回归方程。的回归方程。的回归方程。二、二、多重线性回归多重线性回归SPSSSPSS实现实现2.1 2.1 2.1 2.1 操作讲解操作讲解操作讲解操作讲解单击单击单击单击Analyze/Regression/LinearAnalyze/Regression/LinearAnalyze/Regression/LinearAnalyze/Regression/
10、Linear打开线性回打开线性回打开线性回打开线性回归分析主对话框,选择分析。归分析主对话框,选择分析。归分析主对话框,选择分析。归分析主对话框,选择分析。被解释变量被解释变量被解释变量被解释变量解释变量解释变量解释变量解释变量解释变量筛选方法解释变量筛选方法解释变量筛选方法解释变量筛选方法对样本数据筛对样本数据筛对样本数据筛对样本数据筛选,只对符合选,只对符合选,只对符合选,只对符合条件数据分析条件数据分析条件数据分析条件数据分析加权最小加权最小加权最小加权最小二乘法回二乘法回二乘法回二乘法回归分析归分析归分析归分析统计量统计量统计量统计量图形图形图形图形保存保存保存保存其它选项其它选项其它
11、选项其它选项选择一个变量作样本选择一个变量作样本选择一个变量作样本选择一个变量作样本数据点的标志变量,数据点的标志变量,数据点的标志变量,数据点的标志变量,该变量值将标在回归该变量值将标在回归该变量值将标在回归该变量值将标在回归分析的输出图形中分析的输出图形中分析的输出图形中分析的输出图形中定义不同的定义不同的定义不同的定义不同的分析模块分析模块分析模块分析模块统计量对话框统计量对话框统计量对话框统计量对话框统计量对话框统计量对话框统计量对话框统计量对话框统计量对话框统计量对话框统计量对话框统计量对话框图形对话框图形对话框图形对话框图形对话框表示被解释变量表示被解释变量表示被解释变量表示被解释
12、变量标准化预测值标准化预测值标准化预测值标准化预测值标准化残差标准化残差标准化残差标准化残差剔除残差剔除残差剔除残差剔除残差调整预测值调整预测值调整预测值调整预测值学生化残差学生化残差学生化残差学生化残差学生化剔除残差学生化剔除残差学生化剔除残差学生化剔除残差图形对话框图形对话框图形对话框图形对话框上一组坐标上一组坐标上一组坐标上一组坐标的变量名的变量名的变量名的变量名绘制散点图绘制散点图绘制散点图绘制散点图下一组坐标下一组坐标下一组坐标下一组坐标的变量名的变量名的变量名的变量名直方图直方图正态概率正态概率P-PP-P图图绘制标准化残差图绘制标准化残差图依次绘制因变量依次绘制因变量 和各自变量
13、残差和各自变量残差 的散点图的散点图保存对话框保存对话框保存对话框保存对话框保存对话框保存对话框保存对话框保存对话框保存预测值选项保存预测值选项保存预测值选项保存预测值选项保存非标准化预测值保存非标准化预测值保存标准化预测值保存标准化预测值保存调整的预测值保存调整的预测值保存预测值的均值标准误差保存预测值的均值标准误差保存对话框保存对话框保存对话框保存对话框保存对话框保存对话框保存对话框保存对话框设置预测区间设置预测区间设置预测区间设置预测区间条件均数的条件均数的条件均数的条件均数的置信区间置信区间置信区间置信区间个体个体个体个体y y y y值的值的值的值的置信区间置信区间置信区间置信区间设
14、置置信度设置置信度设置置信度设置置信度保存对话框保存对话框保存对话框保存对话框设置残差选项,设置残差选项,设置残差选项,设置残差选项,用于模型诊断用于模型诊断用于模型诊断用于模型诊断原始残差原始残差标准化残差标准化残差采用采用t t变换产生的残差,即学生化残差变换产生的残差,即学生化残差剔除残差,可发现可疑的强影响点剔除残差,可发现可疑的强影响点学生化剔除残差学生化剔除残差保存对话框保存对话框保存对话框保存对话框设置诊断影响点设置诊断影响点设置诊断影响点设置诊断影响点的统计量选项的统计量选项的统计量选项的统计量选项表示不考虑该观察值表示不考虑该观察值后回归系数的变化值后回归系数的变化值标准化的
15、回归标准化的回归系数变化值系数变化值表示不考虑该观察值表示不考虑该观察值后预测值的变化值后预测值的变化值表示标准化预表示标准化预测值的变化值测值的变化值在多重回归中,表示不考虑在多重回归中,表示不考虑该观察值后协方差矩阵与含该观察值后协方差矩阵与含该观察值协方差矩阵的比率该观察值协方差矩阵的比率保存对话框保存对话框保存对话框保存对话框保存结果到新文件,默保存结果到新文件,默保存结果到新文件,默保存结果到新文件,默认在当前数据文件中生认在当前数据文件中生认在当前数据文件中生认在当前数据文件中生成新变量成新变量成新变量成新变量新变量保存到新数据文件中新变量保存到新数据文件中设置变量筛选标准和缺省值
16、处理方法话框设置变量筛选标准和缺省值处理方法话框设置变量筛选标准和缺省值处理方法话框设置变量筛选标准和缺省值处理方法话框解释变量进入或剔解释变量进入或剔解释变量进入或剔解释变量进入或剔除回归方程的标准除回归方程的标准除回归方程的标准除回归方程的标准表示以偏表示以偏表示以偏表示以偏F F F F统计量统计量统计量统计量的理论概率的理论概率的理论概率的理论概率值值值值为标准判定变量为标准判定变量为标准判定变量为标准判定变量是否进入或剔除是否进入或剔除是否进入或剔除是否进入或剔除回归方程。回归方程。回归方程。回归方程。表示若某一自变表示若某一自变表示若某一自变表示若某一自变量的偏量的偏量的偏量的偏F
17、 F F F统计量的统计量的统计量的统计量的概率值概率值概率值概率值P P P P小于小于小于小于0.050.050.050.05则该自变量进入则该自变量进入则该自变量进入则该自变量进入回归方程。回归方程。回归方程。回归方程。表示若某一自变表示若某一自变表示若某一自变表示若某一自变量的偏量的偏量的偏量的偏F F F F统计量的统计量的统计量的统计量的概率值概率值概率值概率值P P P P大于大于大于大于0.100.100.100.10则该自变量剔除则该自变量剔除则该自变量剔除则该自变量剔除回归方程。回归方程。回归方程。回归方程。设置变量筛选标准和缺省值处理方法话框设置变量筛选标准和缺省值处理方
18、法话框设置变量筛选标准和缺省值处理方法话框设置变量筛选标准和缺省值处理方法话框回归方程中是回归方程中是回归方程中是回归方程中是否包含常数项否包含常数项否包含常数项否包含常数项缺失值处理方式缺失值处理方式凡是有缺失值的数据都不分析凡是有缺失值的数据都不分析不分析进入模型变量有缺失值的记录不分析进入模型变量有缺失值的记录用该变量的均数替代缺失值用该变量的均数替代缺失值自变量筛选方法选项自变量筛选方法选项自变量筛选方法选项自变量筛选方法选项不做筛选自变量全部进入模型不做筛选自变量全部进入模型逐步法,由逐步法,由OptionsOptions对话框设置筛选标准对话框设置筛选标准强制剔除法强制剔除法后退法
19、后退法前进法前进法例例例例1 1 1 1 有学者认为血清中低密度脂蛋白增高和高有学者认为血清中低密度脂蛋白增高和高有学者认为血清中低密度脂蛋白增高和高有学者认为血清中低密度脂蛋白增高和高密度脂蛋白降低是引起动脉硬化的一个重要原密度脂蛋白降低是引起动脉硬化的一个重要原密度脂蛋白降低是引起动脉硬化的一个重要原密度脂蛋白降低是引起动脉硬化的一个重要原因。现测量因。现测量因。现测量因。现测量30303030名怀疑患有动脉硬化的就诊患者名怀疑患有动脉硬化的就诊患者名怀疑患有动脉硬化的就诊患者名怀疑患有动脉硬化的就诊患者的栽脂蛋白的栽脂蛋白的栽脂蛋白的栽脂蛋白A A A A、栽脂蛋白、栽脂蛋白、栽脂蛋白、
20、栽脂蛋白B B B B、栽脂蛋白、栽脂蛋白、栽脂蛋白、栽脂蛋白E E E E、栽脂、栽脂、栽脂、栽脂蛋白蛋白蛋白蛋白C C C C、低密度脂蛋白中的胆固醇、高密度脂、低密度脂蛋白中的胆固醇、高密度脂、低密度脂蛋白中的胆固醇、高密度脂、低密度脂蛋白中的胆固醇、高密度脂蛋白中的胆固醇含量,资料见蛋白中的胆固醇含量,资料见蛋白中的胆固醇含量,资料见蛋白中的胆固醇含量,资料见data12-1data12-1data12-1data12-1。分别。分别。分别。分别求出低、高密度脂蛋白中的胆固醇含量对栽脂求出低、高密度脂蛋白中的胆固醇含量对栽脂求出低、高密度脂蛋白中的胆固醇含量对栽脂求出低、高密度脂蛋白中
21、的胆固醇含量对栽脂蛋白蛋白蛋白蛋白A A A A、栽脂蛋白、栽脂蛋白、栽脂蛋白、栽脂蛋白B B B B、栽脂蛋白、栽脂蛋白、栽脂蛋白、栽脂蛋白E E E E、栽脂蛋白、栽脂蛋白、栽脂蛋白、栽脂蛋白C C C C的回归方程。的回归方程。的回归方程。的回归方程。2.2 2.2 2.2 2.2 实例操作讲解实例操作讲解实例操作讲解实例操作讲解2.2.1 2.2.1 2.2.1 2.2.1 建立数据文件建立数据文件建立数据文件建立数据文件2.2.2 2.2.2 2.2.2 2.2.2 操作步骤操作步骤操作步骤操作步骤第一步:单击第一步:单击第一步:单击第一步:单击Analyze/Regression/
22、LinearAnalyze/Regression/LinearAnalyze/Regression/LinearAnalyze/Regression/Linear打打打打开线性回归分析主对话框,选择分析。开线性回归分析主对话框,选择分析。开线性回归分析主对话框,选择分析。开线性回归分析主对话框,选择分析。第二步:选择低密度脂蛋白中的胆固醇含量进入第二步:选择低密度脂蛋白中的胆固醇含量进入第二步:选择低密度脂蛋白中的胆固醇含量进入第二步:选择低密度脂蛋白中的胆固醇含量进入因变量框,选择栽脂蛋白因变量框,选择栽脂蛋白因变量框,选择栽脂蛋白因变量框,选择栽脂蛋白A A A A、栽脂蛋白、栽脂蛋白、栽
23、脂蛋白、栽脂蛋白B B B B、栽脂蛋、栽脂蛋、栽脂蛋、栽脂蛋白白白白E E E E、栽脂蛋白、栽脂蛋白、栽脂蛋白、栽脂蛋白C C C C进入自变量框进入自变量框进入自变量框进入自变量框第二步:选择低密度脂蛋白中的胆固醇含量进入第二步:选择低密度脂蛋白中的胆固醇含量进入第二步:选择低密度脂蛋白中的胆固醇含量进入第二步:选择低密度脂蛋白中的胆固醇含量进入因变量框,选择栽脂蛋白因变量框,选择栽脂蛋白因变量框,选择栽脂蛋白因变量框,选择栽脂蛋白A A A A、栽脂蛋白、栽脂蛋白、栽脂蛋白、栽脂蛋白B B B B、栽脂蛋、栽脂蛋、栽脂蛋、栽脂蛋白白白白E E E E、栽脂蛋白、栽脂蛋白、栽脂蛋白、栽脂
24、蛋白C C C C进入自变量框进入自变量框进入自变量框进入自变量框第三步:设置统计量对话框,选项如下图,单击第三步:设置统计量对话框,选项如下图,单击第三步:设置统计量对话框,选项如下图,单击第三步:设置统计量对话框,选项如下图,单击确定返回;确定返回;确定返回;确定返回;第三步:设置统计量对话框,选项如下图,单击第三步:设置统计量对话框,选项如下图,单击第三步:设置统计量对话框,选项如下图,单击第三步:设置统计量对话框,选项如下图,单击确定返回;确定返回;确定返回;确定返回;第四步:设置图形对话框,选项如下图,单击确第四步:设置图形对话框,选项如下图,单击确第四步:设置图形对话框,选项如下图
25、,单击确第四步:设置图形对话框,选项如下图,单击确定返回;初步操作完成。定返回;初步操作完成。定返回;初步操作完成。定返回;初步操作完成。第四步:设置图形对话框,选项如下图,单击确第四步:设置图形对话框,选项如下图,单击确第四步:设置图形对话框,选项如下图,单击确第四步:设置图形对话框,选项如下图,单击确定返回;初步操作完成。定返回;初步操作完成。定返回;初步操作完成。定返回;初步操作完成。结果解释。结果解释。结果解释。结果解释。结果解释。结果解释。结果解释。结果解释。练练练练1 1 1 1 有学者认为血清中低密度脂蛋白增高和高有学者认为血清中低密度脂蛋白增高和高有学者认为血清中低密度脂蛋白增
26、高和高有学者认为血清中低密度脂蛋白增高和高密度脂蛋白降低是引起动脉硬化的一个重要原密度脂蛋白降低是引起动脉硬化的一个重要原密度脂蛋白降低是引起动脉硬化的一个重要原密度脂蛋白降低是引起动脉硬化的一个重要原因。现测量因。现测量因。现测量因。现测量30303030名怀疑患有动脉硬化的就诊患者名怀疑患有动脉硬化的就诊患者名怀疑患有动脉硬化的就诊患者名怀疑患有动脉硬化的就诊患者的栽脂蛋白的栽脂蛋白的栽脂蛋白的栽脂蛋白A A A A、栽脂蛋白、栽脂蛋白、栽脂蛋白、栽脂蛋白B B B B、栽脂蛋白、栽脂蛋白、栽脂蛋白、栽脂蛋白E E E E、栽脂、栽脂、栽脂、栽脂蛋白蛋白蛋白蛋白C C C C、低密度脂蛋白
27、中的胆固醇、高密度脂、低密度脂蛋白中的胆固醇、高密度脂、低密度脂蛋白中的胆固醇、高密度脂、低密度脂蛋白中的胆固醇、高密度脂蛋白中的胆固醇含量,资料见蛋白中的胆固醇含量,资料见蛋白中的胆固醇含量,资料见蛋白中的胆固醇含量,资料见data12-1data12-1data12-1data12-1。分别。分别。分别。分别求出低、高密度脂蛋白中的胆固醇含量对栽脂求出低、高密度脂蛋白中的胆固醇含量对栽脂求出低、高密度脂蛋白中的胆固醇含量对栽脂求出低、高密度脂蛋白中的胆固醇含量对栽脂蛋白蛋白蛋白蛋白A A A A、栽脂蛋白、栽脂蛋白、栽脂蛋白、栽脂蛋白B B B B、栽脂蛋白、栽脂蛋白、栽脂蛋白、栽脂蛋白E E E E、栽脂蛋白、栽脂蛋白、栽脂蛋白、栽脂蛋白C C C C的回归方程。的回归方程。的回归方程。的回归方程。作业预习 10.3