《多元回归分析的原理与应用讲稿.ppt》由会员分享,可在线阅读,更多相关《多元回归分析的原理与应用讲稿.ppt(42页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于多元回归分析的原理与应用第一页,讲稿共四十二页哦2提提 纲纲多元回归分析的统计原理多元回归分析的统计原理多元回归分析在心理学研究中的应用多元回归分析在心理学研究中的应用第二页,讲稿共四十二页哦31 多元回归分析多元回归分析(regression)的统计原理的统计原理回归分析的含义回归分析的含义回归分析的分类回归分析的分类一元线性回归一元线性回归多元线性回归多元线性回归在在SPSS中如何做多元回归分析中如何做多元回归分析第三页,讲稿共四十二页哦41.1 回归分析的含义回归分析的含义客观世界中事物之间的关系是各种各样的。从定量的角度客观世界中事物之间的关系是各种各样的。从定量的角度看,主要有两
2、种:一是确定性关系,如重力加速度,即自看,主要有两种:一是确定性关系,如重力加速度,即自由落体的距离与时间:由落体的距离与时间:S=0.5gtS=0.5gt2 2;另一类是不确定性关系,;另一类是不确定性关系,即相关关系。即相关关系。由于事物的变化常常受多种因素的影响,导致了事物变化由于事物的变化常常受多种因素的影响,导致了事物变化的不确定性。人们常用相关系数来描述事物之间的这种不的不确定性。人们常用相关系数来描述事物之间的这种不确定性程度。确定性程度。但对于如何通过一个事物的值去估计和预测另一个事物的但对于如何通过一个事物的值去估计和预测另一个事物的发展变化,相关系数却无能为力。但是,通过大
3、量的实际发展变化,相关系数却无能为力。但是,通过大量的实际调查,可以总结出它们之间的关系,回归分析即是对这种调查,可以总结出它们之间的关系,回归分析即是对这种关系的描述。关系的描述。第四页,讲稿共四十二页哦51.1 回归分析的含义回归分析的含义“回归回归”一词最早由英国统计学家一词最早由英国统计学家高尔顿高尔顿(Francis Galton)在)在19世纪末期研究孩子的身高和他们父母身世纪末期研究孩子的身高和他们父母身高关系时提出。高关系时提出。研究发现,孩子的身高总是趋于他们父母身高的平均研究发现,孩子的身高总是趋于他们父母身高的平均值。孩子的身高,比身材矮的父母要高,比身材高的值。孩子的身
4、高,比身材矮的父母要高,比身材高的父母要矮,这种父母要矮,这种趋于中间值的趋势称作趋于中间值的趋势称作“回归效应回归效应”,而他提出的这种研究两个数值变量关系的方法称作而他提出的这种研究两个数值变量关系的方法称作回回归分析归分析。第五页,讲稿共四十二页哦61.1 回归分析的含义回归分析的含义含义:含义:是借助数学模型对客观世界所存在是借助数学模型对客观世界所存在的事物间的不确定关系的一种数量化描写,的事物间的不确定关系的一种数量化描写,即通过一个或几个变量的变化去解释另一即通过一个或几个变量的变化去解释另一变量的变化。变量的变化。目的:目的:在于对相关随机变量进行估计、预在于对相关随机变量进行
5、估计、预测和控制,确定变这些量之间数量关系的测和控制,确定变这些量之间数量关系的可能形式,并用一个数学模型来表示。可能形式,并用一个数学模型来表示。第六页,讲稿共四十二页哦7XYXY 自变量自变量(independent variable):解释变量,给定的:解释变量,给定的或可以控制的、用来解释、预测因变量的变量。或可以控制的、用来解释、预测因变量的变量。因变量因变量(dependent variable):响应变量,由自变量:响应变量,由自变量来解释其变化的变量。来解释其变化的变量。在回归分析中:在回归分析中:第七页,讲稿共四十二页哦81.1 回归分析的含义回归分析的含义数学模型:数学模型
6、:y=f(x1,x2,x3,xi)+模型的基本含义:模型的基本含义:因变量因变量y受到两部分自变量的影响,即:已知的受到两部分自变量的影响,即:已知的K个个自变量自变量x1,x2,x3,xi的影响;一些未知因素或随机因素的影响;一些未知因素或随机因素的影响。对于的影响。对于K个已知自变量的影响,设想可以通过函数个已知自变量的影响,设想可以通过函数f(x1,x2,x3,xi)来表示,而剩下的将由那些未知因素或来表示,而剩下的将由那些未知因素或随机因素的影响确定,将这些影响的结果记为随机因素的影响确定,将这些影响的结果记为,称,称为随机误差。对于每一组实际观察获得的值为随机误差。对于每一组实际观察
7、获得的值yi,x1,x2,x3,xi就可以表示成就可以表示成:yi=f(x1,x2,x3,xi)+第八页,讲稿共四十二页哦91.1 回归分析的含义回归分析的含义对于自变量对于自变量x1,x2,x3,xi的每一组确定的值,的每一组确定的值,f(x1,x2,x3,xi)的值也是确定的;但由于的值也是确定的;但由于 是不确是不确定的,所以,定的,所以,y也是不确定的,但在每一组确定也是不确定的,但在每一组确定的自变量之下,所有的的自变量之下,所有的 服从均数为零的正态分服从均数为零的正态分布,因此,对于自变量的每一组确定的值,布,因此,对于自变量的每一组确定的值,因变量也服从正态分布,其平均数就是因
8、变量也服从正态分布,其平均数就是f(x1,x2,x3,xi),该公式即为回归方程,记为:,该公式即为回归方程,记为:第九页,讲稿共四十二页哦10回归分析回归分析按自变量个按自变量个数分类数分类一元回归一元回归简简单回归单回归多元回归多元回归复回归复回归按方程式特按方程式特征分类征分类线性回归线性回归非线性回归非线性回归1.2 回归分析的分类回归分析的分类第十页,讲稿共四十二页哦111.3 一元线性回归一元线性回归只有一个自变量的线性回归叫一元线性只有一个自变量的线性回归叫一元线性回归,也叫简单回归。回归,也叫简单回归。与方差分析不同,在回归分析中,与方差分析不同,在回归分析中,“元元”是指自变
9、量,而不是指因变量。是指自变量,而不是指因变量。第十一页,讲稿共四十二页哦12总体的一元线性回归模型:总体的一元线性回归模型:模型模型参数参数残差残差假定:假定:E()=0总体的一元线性回归方程:总体的一元线性回归方程:第十二页,讲稿共四十二页哦13一元线性回归方程的几何意义一元线性回归方程的几何意义一元线性回归线的可能形态一元线性回归线的可能形态截距截距斜率:回斜率:回归系数归系数 10 10 1=0第十三页,讲稿共四十二页哦14样本的一元线性回归方程:样本的一元线性回归方程:(估计的回归方程估计的回归方程)总体未知参数总体未知参数以样本统计量估计总体参数以样本统计量估计总体参数回归系数回归
10、系数第十四页,讲稿共四十二页哦15最小二乘法最小二乘法(Least squares method):以极小化以极小化 为目标,求估计方程为目标,求估计方程的过程。的过程。残差残差(Residual):e第十五页,讲稿共四十二页哦16最小二乘法最小二乘法因为一组数据可以有多条回归直线,但是哪条因为一组数据可以有多条回归直线,但是哪条最理想呢?最理想呢?想得到比较精确的回归方程,必须使用最小想得到比较精确的回归方程,必须使用最小二乘法。二乘法。最小二乘法就是使误差的平方和最小。最小二乘法就是使误差的平方和最小。误差误差e就是残差就是残差,e=y-y,其平方和为:,其平方和为:(yy)2=(y-a-
11、bx)2 要使误差最小,只要分别对要使误差最小,只要分别对a、b求偏导数,使求偏导数,使其其0即可。即可。第十六页,讲稿共四十二页哦17判定系数判定系数(Coefficient of determination):估计的估计的回归方程拟合优度的度量,表明回归方程拟合优度的度量,表明Y 的变异性能的变异性能被估计的回归方程解释的部分所占比例的大小。被估计的回归方程解释的部分所占比例的大小。是判定是判定回归方程有效性高低的指标回归方程有效性高低的指标r2当残差平方和为当残差平方和为 0时,时,判定系数为判定系数为 1,为完全,为完全的拟合。的拟合。当残差平方和最大时,当残差平方和最大时,判定系数为
12、判定系数为 0,为最差,为最差的拟合。的拟合。判定系数判定系数第十七页,讲稿共四十二页哦18判定系数与相关系数判定系数与相关系数第十八页,讲稿共四十二页哦19判定系数与相关系数判定系数与相关系数从二者的计算公式可知,积差相关系数从二者的计算公式可知,积差相关系数r的平方等于判定系数的平方等于判定系数r2,即,即Y 的变异性的变异性能被估计的回归方程解释的部分所占比能被估计的回归方程解释的部分所占比例的大小。例的大小。如果如果r2=0.64,表明变量表明变量Y的变异中有的变异中有64是是由变量由变量X的变异引起的。所以,的变异引起的。所以,r2叫判定叫判定系数。系数。第十九页,讲稿共四十二页哦2
13、01.4 多元线性回归多元线性回归(Multiple Regression)多元线性回归,就是有多个自变量的线性回归,多元线性回归,就是有多个自变量的线性回归,也叫复回归。也叫复回归。其数学模型为:其数学模型为:截距:常数项截距:常数项(constant)偏回归系数:偏回归系数:误差:残差误差:残差第二十页,讲稿共四十二页哦211.4 多元线性回归多元线性回归多元回归分析的基本假设多元回归分析的基本假设多元回归方程及其显著性检验多元回归方程及其显著性检验筛选自变量的方法筛选自变量的方法多元回归方程有效性的判定多元回归方程有效性的判定第二十一页,讲稿共四十二页哦221.4.1 多元回归分析的基本
14、假设多元回归分析的基本假设相关存在性:相关存在性:就自变量就自变量X1,X2,X3,XK的特殊组合而言,的特殊组合而言,Y变量(单变量)是一个随机变量,具有某种概率分配,有一定的变量(单变量)是一个随机变量,具有某种概率分配,有一定的平均数及变异数,各个变量之间都存在显著相关关系。平均数及变异数,各个变量之间都存在显著相关关系。独立性:独立性:每一个观察值每一个观察值Y彼此间是统计独立的,观察值间没有关彼此间是统计独立的,观察值间没有关联,即非共线性。联,即非共线性。直线性:直线性:Y 变量的平均数是变量变量的平均数是变量X1,X2,X3,XK间的线间的线性函数,此线性函数关系即回归方程。性函
15、数,此线性函数关系即回归方程。方差齐性:方差齐性:就就X1,X2,X3,XK任何一个组合而言,因变任何一个组合而言,因变量量Y的变异数均相同。的变异数均相同。正态性:正态性:就任何就任何X1,X2,X3,XK的线性组合而言,因变的线性组合而言,因变量量Y的分配是正态的。的分配是正态的。第二十二页,讲稿共四十二页哦231.4.2 多元回归方程及其显著性检验多元回归方程及其显著性检验多元回归的样本与总体的回归方程:多元回归的样本与总体的回归方程:第二十三页,讲稿共四十二页哦241.4.2 多元回归方程及其显著性检验多元回归方程及其显著性检验回归方程的显著性检验回归方程的显著性检验,就是检验样本回归
16、方就是检验样本回归方程的变量的线性关系是否显著,即能否根据程的变量的线性关系是否显著,即能否根据样本来推断总体回归方程中的多个回归系数样本来推断总体回归方程中的多个回归系数中至少有一个不等于中至少有一个不等于0,主要是为了说明样本回,主要是为了说明样本回归方程的归方程的r2的显著性。的显著性。检验的方法:用方差分析,又叫回归的方差检验的方法:用方差分析,又叫回归的方差分析。这时因变量分析。这时因变量Y的总变异被分解为回归的总变异被分解为回归平方和与误差平方和。平方和与误差平方和。F值等于回归均方除以值等于回归均方除以误差均方。误差均方。第二十四页,讲稿共四十二页哦251.4.2 多元回归方程及
17、其显著性检验多元回归方程及其显著性检验多元回归方程的求法依然与一元线性回归一多元回归方程的求法依然与一元线性回归一样,只是在求多元线性回归方程时,样,只是在求多元线性回归方程时,需要对需要对自变量进行检验和筛选自变量进行检验和筛选,剔除那些对因变,剔除那些对因变量没有影响或影响甚小,经检验未达到显量没有影响或影响甚小,经检验未达到显著水平,不足以入选的自变量,著水平,不足以入选的自变量,以达到简以达到简化变量间关系结构、简化所求回归方程的化变量间关系结构、简化所求回归方程的目的目的。第二十五页,讲稿共四十二页哦261.4.3 筛选自变量的方法筛选自变量的方法在建立回归方程之前,任何自变量都可以
18、作为在建立回归方程之前,任何自变量都可以作为进入方程的目标。但对于因变量而言,只有那进入方程的目标。但对于因变量而言,只有那些对因变量具有预测作用的自变量才能被选中。些对因变量具有预测作用的自变量才能被选中。选择的依据是对选择的依据是对回归系数做显著性检验回归系数做显著性检验,只有,只有能够显著地预测因变量的自变量才会被选择进来。能够显著地预测因变量的自变量才会被选择进来。好的回归方程不但方程显著,而且每个自变量的好的回归方程不但方程显著,而且每个自变量的偏回归系数也显著。偏回归系数也显著。选择的方法主要两大类,四选择的方法主要两大类,四种。种。第二十六页,讲稿共四十二页哦271.4.3 筛选
19、自变量的方法筛选自变量的方法 探索性回归:探索性回归:向前选择法(向前选择法(forward)向后剔除法(向后剔除法(backward)逐步回归法(逐步回归法(stepwise)验证性回归(层次回归):验证性回归(层次回归):人为地逐步增加变量(人为地逐步增加变量(enter),根据理论),根据理论假设决定。假设决定。第二十七页,讲稿共四十二页哦28向前选择向前选择(Forward)基本过程:首先将与因变量有最大正相关或最基本过程:首先将与因变量有最大正相关或最大负相关的变量进入方程,然后按假设大负相关的变量进入方程,然后按假设H0:“进入方程的变量系数为零进入方程的变量系数为零”进行进行F检
20、验,检验的检验,检验的标准有两个:标准有两个:(1)只有当只有当F检验显著时(概率小于或等于概检验显著时(概率小于或等于概率),变量才能进入回归方程率),变量才能进入回归方程F-to-enter-FIN。(2)必须达到必须达到F统计量的最小值(一般意义上统计量的最小值(一般意义上的显著性检验)的显著性检验),Probability of F-to-enter-PIN。第二十八页,讲稿共四十二页哦29向前选择向前选择(Forward)注意:随着变量加入到方程中,残差平方注意:随着变量加入到方程中,残差平方和变化的自由度在增加,使得第一种标准和变化的自由度在增加,使得第一种标准的显著性水平依赖于方
21、程中当前变量数。的显著性水平依赖于方程中当前变量数。这意味着原来显著的变量可能会随着进入这意味着原来显著的变量可能会随着进入方程的变量数的增加而变得不显著。方程的变量数的增加而变得不显著。第二十九页,讲稿共四十二页哦30向后选择向后选择(Backward)基本过程:首先将所有变量纳入到方程中,基本过程:首先将所有变量纳入到方程中,然后根据指定剔除的标准剔除不显著的变然后根据指定剔除的标准剔除不显著的变量,标准有两个:量,标准有两个:(1)F移出法移出法(F-to-remove-FOUR)(2)F最大概率移出最大概率移出(Maximum probability of F-to-remove-PO
22、UT)第三十页,讲稿共四十二页哦31逐步选择逐步选择(Stepwise)基本过程:首先采用向前选择的方式选择基本过程:首先采用向前选择的方式选择第一个变量,若不满足标准则终止选择,第一个变量,若不满足标准则终止选择,按偏相关系数选择下一个。同时,根据向按偏相关系数选择下一个。同时,根据向后剔除的标准,考察已经进入方程的变量后剔除的标准,考察已经进入方程的变量是否应该剔除,直到没有一个变量满足移是否应该剔除,直到没有一个变量满足移出标准,为防止变量重复进入和移出,出标准,为防止变量重复进入和移出,F-F-进入判据必须大于进入判据必须大于F-F-剔除判据。剔除判据。第三十一页,讲稿共四十二页哦32
23、1.4.4 多元回归方程有效性的判定多元回归方程有效性的判定检验残差检验残差方差齐性检验方差齐性检验偏回归系数与常数项的检验偏回归系数与常数项的检验共线性问题的判别共线性问题的判别第三十二页,讲稿共四十二页哦33检验残差检验残差回归分析中误差项(残差)的基本假设:回归分析中误差项(残差)的基本假设:(1)误差项的均值为零;)误差项的均值为零;(2)误差项有固定的方差;)误差项有固定的方差;(3)各次观察的误差相互独立;)各次观察的误差相互独立;(4)误差服从正态分布。)误差服从正态分布。第三十三页,讲稿共四十二页哦34检验残差检验残差看残差图:是以某种残差为纵坐标,以其他指定的变看残差图:是以
24、某种残差为纵坐标,以其他指定的变量为横坐标,满足模型假设的残差图应当是呈水平带量为横坐标,满足模型假设的残差图应当是呈水平带状;状;检验相邻误差项是否有序列相关:使用检验相邻误差项是否有序列相关:使用Durbin-Watson检检验,验,DW介于介于1.22.8之间时可认为是独立的。之间时可认为是独立的。查找异常点查找异常点(casewise)Outlier,通常以超出,通常以超出3个残差标个残差标准差的样品为异常点。准差的样品为异常点。检验误差正态的假设,一是看标准化残差直方图与正态检验误差正态的假设,一是看标准化残差直方图与正态曲线比较是否接近;二是看标准化残差正态概率图,与曲线比较是否接
25、近;二是看标准化残差正态概率图,与对角直线相比,若接近为正态。对角直线相比,若接近为正态。第三十四页,讲稿共四十二页哦35方差齐性检验方差齐性检验方差齐性方差齐性(variance of homogeneity):指残差:指残差的分布是常数,与预测变量或因变量无关。即的分布是常数,与预测变量或因变量无关。即残差应随机地分布在一条穿过残差应随机地分布在一条穿过0点的水平直线两点的水平直线两侧。在实际应用中,一般是绘制因变量预测值侧。在实际应用中,一般是绘制因变量预测值(如(如ZPRED-X)与学生残差(如)与学生残差(如SRESID-Y)的散点图。)的散点图。第三十五页,讲稿共四十二页哦36偏回
26、归系数与常数项的检验偏回归系数与常数项的检验检验的假设是:各自变量的偏回归系数为检验的假设是:各自变量的偏回归系数为0,常数项为,常数项为0。使用的统计量为使用的统计量为t值:值:t=偏回归系数偏回归系数/偏回偏回归系数的标准误。归系数的标准误。第三十六页,讲稿共四十二页哦37共线性问题的判别共线性问题的判别(collinearity diagnostic)共线性是指由于自变量间的相关太高,造成回归共线性是指由于自变量间的相关太高,造成回归分析之情境困扰。如果变量间有共线性问题,表分析之情境困扰。如果变量间有共线性问题,表示一个预测变量是其自变量的线性组合,如若示一个预测变量是其自变量的线性组
27、合,如若X1与与X2完全共线性,代表完全共线性,代表X1是是X2的直线函数,点的直线函数,点(X1,X2)会在同一条直线上,即共线性,若)会在同一条直线上,即共线性,若存在严重的共线性,模型的参数就不能完全被估存在严重的共线性,模型的参数就不能完全被估计出来。计出来。第三十七页,讲稿共四十二页哦38X1与与X2共线共线X1与与X3共线共线X2与与X3共线共线X1、X2、X3共线共线X3X2X1共线性问题图示共线性问题图示第三十八页,讲稿共四十二页哦39共线性问题的判别共线性问题的判别(collinearity diagnostic)共线性问题的判别标准:共线性问题的判别标准:容忍度:容忍度:(
28、tolerance)=1-r2,介于,介于0-1之间,太小之间,太小表示有共线性;表示有共线性;变异数膨胀:变异数膨胀:(variance inflation factor,VIF)是容忍度的倒数,越大,共线性越严重;是容忍度的倒数,越大,共线性越严重;条件指针:条件指针:(condition index,CI)值越大,共线性值越大,共线性越严重越严重,15为有问题,超过为有问题,超过30有严重问题。有严重问题。第三十九页,讲稿共四十二页哦401.5 在在SPSS中如何做回归分析中如何做回归分析AnalyzeregressionlinearDependent(Y)Independents(x1
29、,x2,x3,xi)Method:stepwisestatisticsRegression Coefficients:Estimates,Confidence intervals(求回归参数的置信区间)Residuals:Durbin-Watson(检验序列相关)Casewise diagnostics(查找异常点)R squared change,Descriptives,Collinearity diagnosticContinuePlotsY:Dependent,X:*ZPRED(正态性检验)Standardized Residuals Plots:Histogram,Normal pr
30、obability plotContinuesavePredicted Values:Unstandardized,Standardized,S.E.of predictionsResiduals:Unstandardized,Standardized(在数据清单中产生标准化残差)ContinueOptions:Use probability of Finclude constant in equationContinueOK第四十页,讲稿共四十二页哦412 回归分析在心理学研究中的应用回归分析在心理学研究中的应用心理科学研究的目的:心理科学研究的目的:描述、解释、预测、控制各种心描述、解释、
31、预测、控制各种心理与行为的变化。理与行为的变化。回归分析的预测作用:回归分析的预测作用:能从一个或几个变量的取值对另能从一个或几个变量的取值对另一变量的取值做出预测,即能根据一个或几个事物的变一变量的取值做出预测,即能根据一个或几个事物的变化对另一个事物的影响规律来预测这个事物未来的变化化对另一个事物的影响规律来预测这个事物未来的变化规律。规律。借助回归分析能在某种程度上解决心理科学研究对心借助回归分析能在某种程度上解决心理科学研究对心理与行为的理与行为的预测预测目的(目的(横向、纵向预测横向、纵向预测皆可)。皆可)。第四十一页,讲稿共四十二页哦感感谢谢大大家家观观看看第四十二页,讲稿共四十二页哦