《相关分析与回归分析精选课件.ppt》由会员分享,可在线阅读,更多相关《相关分析与回归分析精选课件.ppt(47页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于相关分析与回归分析第一页,本课件共有47页概述概述n相相关关分分析析和和回回归归分分析析都都是是分分析析客客观观事事物物之之间间相相关关性性的的数数量量分析方法。分析方法。n相互关系:函数关系与统计关系相互关系:函数关系与统计关系n统统计计关关系系:不不完完全全确确定定的的随随机机关关系系,当当一一个个或或几几个个相相互互联联系系的的变变量量取取一一定定值值时时,与与其其相相对对应应的的另另一一个个变变量量取取值值虽虽不不确确定定,但但会会按按照某种规律在一定范围内变化。照某种规律在一定范围内变化。线性相关:正/负非线性相关第二页,本课件共有47页相关分析相关分析-散点图散点图n将将数数据
2、据以以点点的的形形式式画画在在直直角角平平面面上上。n基基本本操操作作:n图图形形-旧旧对对话话框框-散散点点/点点状状第三页,本课件共有47页相关系数相关系数n两两个个步步骤骤:1.计计算算样样本本相相关关系系数数r;2.对对样样本本来来自自的的两两总总体体是是否否存存在在显显著著线线性性关关系系进进行行推推断断。提出零假设,即两总体无线性相关性;选择检验统计量;计算检验统计量的观测值和对应的概率p值;决策第四页,本课件共有47页n相相关关系系数数的的分分类类nP Pe ea ar rs so on n简简单单相相关关系系数数(皮皮尔尔逊逊):用用来来度度量量正正态态分分布布的的定定距距变变
3、量量间间的的线线性性相相关关关关系系,P Pe ea ar rs so on n简简单单相相关关系系数数不不能能用用于于度度量量变变量量之之间间的的非非线线性性关关系系nS Sp pe ea ar rm ma an n秩秩相相关关系系数数(斯斯皮皮尔尔曼曼):采采用用非非参参数数检检验验方方法法来来度度量量定定序序变变量量间间的的线线性性相相关关关关系系,由由于于数数据据为为非非定定距距变变量量,因因此此不不能能直直接接采采用用原原始始数数据据,而而是是利利用用数数据据的的秩秩nK Ke en nd da al ll l秩秩相相关关系系数数(肯肯德德尔尔):采采用用非非参参数数检检验验方方法法
4、来来度度量量定定序序变变量量间间的的线线性性相相关关关关系系第五页,本课件共有47页连续变量的相关分析连续变量的相关分析nPearson简单相关系数:其中简单相关系数:其中 为协方差,为协方差,为标准差。为标准差。x和y是对称的,说明x与y的相关系数等同于y和x和相关系数;简单相关系数是无量纲的;x和y做线性变换后可能改变相关系数的符号,但不会改变值;只能度量线性关系,不能度量非线性关系的。第六页,本课件共有47页n对对相相关关关关系系的的显显著著性性进进行行检检验验,该该检检验验原原假假设设是是:两两总总体体相相关关系系数数等于等于0。nt统计量:统计量:,服从自由度为服从自由度为n-2的的
5、t分布。分布。第七页,本课件共有47页定序变量的相关分析定序变量的相关分析-Spearmannui和和vi分分别别表表示示变变量量x和和y的的秩秩变变量量,用用di=ui-vi表表示示第第i个个样样本本对对应应于两变量的秩之差。于两变量的秩之差。nSpearman秩相关公式:秩相关公式:n两变量正相关,秩变化有同步性,两变量正相关,秩变化有同步性,r趋向于趋向于1;n两两变变量量完完全全正正线线性性相相关关,ui和和vi相相等等,r=1;完完全全负负相相关关,ui+vi=n+1,r=-1;n检验系数,原假设为:两变量不相关。检验系数,原假设为:两变量不相关。n小小样样本本,服服从从Spearm
6、an分分布布;大大样样本本,服服从从标标准准正正态态分分布。布。第八页,本课件共有47页定序变量的相关分析定序变量的相关分析-Kendall秩相关系数秩相关系数n设设在在v1后后面面有有R1个个秩秩大大于于v1,v2后后面面有有R2个个秩秩大大于于v2,.在在vn-1后面有后面有Rn-1个秩大于个秩大于vn-1,令,令n显然,变量显然,变量x和和y相关性越强,则相关性越强,则R越大。越大。nKendall秩相关系数:秩相关系数:第九页,本课件共有47页举例举例kendall秩相关系数秩相关系数n假假如如我我们们设设一一组组8人人的的身身高高和和体体重重在在那那里里A的的人人是是最最高高的的,第
7、第三重,等等:三重,等等:n注注意意,A最最高高,但但体体重重排排名名为为 3,比比体体重重排排名名为为 4,5,6,7,8 的的重重,贡贡献献5个个同同序序对对,即即AB,AE,AF,AG,AH。同同理理,我我们们发发现现B、C、D、E、F、G、H分分别别贡贡献献4、5、4、3、1、0、0个同序对,因此,个同序对,因此,nR=5+4+5+4+3+1+0+0=22.n因而因而rk=(88/56)-1=0.57。第十页,本课件共有47页定类变量的相关分析定类变量的相关分析n卡方检验离散变量的相关性,称为列联表分析。卡方检验离散变量的相关性,称为列联表分析。n用多行多列纵横交错形成一个表体。用多行
8、多列纵横交错形成一个表体。nEij为为联联合合观观察察频频数数;ni.为为第第i行行观观察察频频数数之之和和,n.j为为第第j列列观观察察频数之和。频数之和。nPearson 卡方统计量:卡方统计量:n该检验的原假设为:两变量相互独立。该检验的原假设为:两变量相互独立。第十一页,本课件共有47页举例:列联表分析举例:列联表分析第十二页,本课件共有47页第十三页,本课件共有47页第十四页,本课件共有47页第十五页,本课件共有47页第十六页,本课件共有47页第十七页,本课件共有47页案例案例6.1 双变量相关分析双变量相关分析n案案例例6.1.sav的的资资料料给给出出了了杭杭州州市市2006年年
9、市市区区分分月月统统计计的的平平均均温温度和日照时数。试据此分析平均温度和日照时数的相关性。度和日照时数。试据此分析平均温度和日照时数的相关性。第十八页,本课件共有47页偏相关分析偏相关分析n很很多多情情况况下下,需需要要进进行行相相关关分分析析的的变变量量的的取取值值会会同同时时受受到到其其他他变变量量的的影影响响,这这时时候候就就需需要要把把其其他他变变量量控控制制住住,然然后后输输出出控控制制其其他他变变量量影影响响后后的的相相关关系系数数。SPSS的的偏偏相相关关分分析析(Partial)过过程程就就是是为为解解决决这一问题而设计的。这一问题而设计的。n控控制制变变量量个个数数为为一一
10、时时,偏偏相相关关系系数数称称为为一一阶阶偏偏相相关关,为为2则则是是二阶偏相关。二阶偏相关。第十九页,本课件共有47页n步步骤骤:1.计计算算样样本本的的偏偏相相关关系系数数2.对对样样本本来来自自两两总总体体是是否否存存在在显显著著净净相相关关进进行行推推断断:提出零假设:两总体的偏相关系数与零无显著差异;选择检验统计量t;计算检验统计量的观测值和对应的概率p值;决策。第二十页,本课件共有47页案例案例6.2 n案案例例6.2.sav的的资资料料给给出出了了随随机机抽抽取取的的山山东东省省某某学学校校的的12名名学学生生的的IQ值值、语语文文成成绩绩和和数数学学成成绩绩。因因为为语语文文成
11、成绩绩和和数数学学成成绩绩都都受受IQ的的影影响响,所所以以试试用用偏偏相相关关分分析析研研究究学学生生语语文文成成绩绩和和数数学成绩的相关关系。学成绩的相关关系。第二十一页,本课件共有47页案例案例6.3 距离分析距离分析nSPSS的的距距离离分分析析(Distances)也也属属于于相相关关分分析析的的范范畴畴,其其基基本本功功能能是是对对样样本本观观测测值值之之间间差差异异性性或或者者相相似似程程度度进进行行度度量量,从从而而对对数数据据形形成成一一个个初初步步的的了了解解。这这种种分分析析方方法法主主要要应应用用在在分分析析之之前前对对数数据据背背后后的的专专业业知知识识不不够够充充分
12、分了了解解,进进行探索性研究的情形。行探索性研究的情形。n案案例例6.3.sav的的资资料料给给出出了了沈沈阳阳、大大连连和和鞍鞍山山2006年年各各月月的的平平均均气气温情况。试用距离分析方法研究这三个地区月平均气温的相似程度。温情况。试用距离分析方法研究这三个地区月平均气温的相似程度。第二十二页,本课件共有47页回归分析回归分析n回归分析是研究两个变量或多个变量之间因果关系的统计方法。回归分析是研究两个变量或多个变量之间因果关系的统计方法。n基基本本思思想想:在在进进行行相相关关分分析析的的基基础础上上,对对确确定定具具有有相相关关关关系系的的两两个个或或多多个个变变量量之之间间数数量量变
13、变化化的的一一般般关关系系进进行行测测定定,确定一个合适的数学模型,以便从已知量来推断未知量。确定一个合适的数学模型,以便从已知量来推断未知量。第二十三页,本课件共有47页相关分析与回归分析的区别相关分析与回归分析的区别n相相关关分分析析研研究究的的变变量量之之间间关关系系是是对对等等的的,回回归归分分析析研研究究的的变变量有解释和被解释之分;量有解释和被解释之分;n相相关关分分析析研研究究的的是是随随机机变变量量,回回归归分分析析被被解解释释变变量量是是随随机机变量,而解释变量非随机;变量,而解释变量非随机;n相相关关分分析析不不能能指指出出变变量量间间相相互互关关系系的的具具体体形形式式,
14、回回归归分分析析可可以以通通过过一个数学表达式来确定变量之间相关情况的具体形式。一个数学表达式来确定变量之间相关情况的具体形式。第二十四页,本课件共有47页n一般步骤:一般步骤:1.确定回归方程中的解释变量和被解释变量2.确定回归模型3.建立回归方程4.对回归方程进行各种检验5.利用回归方程进行预测第二十五页,本课件共有47页线性回归线性回归n数学模型:数学模型:n使使用用最最小小二二乘乘法法对对模模型型中中的的回回归归系系数数进进行行估估计计,得得到到样样本本回回归函数:归函数:n 是是 的估计值,的估计值,是是 与其拟合值与其拟合值 之间的离差,称为残差。之间的离差,称为残差。第二十六页,
15、本课件共有47页线性回归建立在以下基本假设之上线性回归建立在以下基本假设之上n对于所有的对于所有的i,存在:,存在:n不同的随机扰动项之间不存在序列相关,即:不同的随机扰动项之间不存在序列相关,即:n解释变量是非随机的,与随机扰动项不相关解释变量是非随机的,与随机扰动项不相关nK个解释变量不存在共线性个解释变量不存在共线性第二十七页,本课件共有47页线性回归模型的检验线性回归模型的检验一级检验统计学检验二级检验经济计量学检验拟合优度评价显著性检验异方差检验序列相关检验第二十八页,本课件共有47页1)模型拟合优度评价模型拟合优度评价n是是指指样样本本观观测测值值聚聚集集在在样样本本回回归归线线周
16、周围围的的紧紧密密程程度度,也也反反应了回归方程对被解释变量的解释程度。应了回归方程对被解释变量的解释程度。nSST=SSR+SSE(总变差,解释变差,剩余变差总变差,解释变差,剩余变差)n可决系数:可决系数:R2=SSR/SST=1-SSE/SST(一元线性回归方程)(一元线性回归方程)n调整的可决系数:调整的可决系数:(多元线性回归方程)(多元线性回归方程)解释变量增多时,SSE减少,R2增加;有重要“贡献”的解释变量出现。第二十九页,本课件共有47页2)回归方程整体显著性检验)回归方程整体显著性检验n包包含含回回归归方方程程的的显显著著性性检检验验和和回回归归系系数数的的显显著著性性检检
17、验验两两个个部部分分。n回回归归方方程程的的显显著著性性检检验验:检检验验线线性性关关系系是是否否显显著著(1)建建立立原原假假设设:n ,即即回回归归方方程程整整体体不不显显著著;n ,即即回回归归方方程程整整体体显显著著。(2)构构造造F统统计计量量:(3)计计算算F统统计计量量和和对对应应的的p值值(4)对对比比p值值和和。第三十页,本课件共有47页3)回归系数的显著性检验)回归系数的显著性检验(1)建建立立原原假假设设:n ,即即第第j个个回回归归系系数数不不显显著著;n ,即即第第j个个回回归归系系数数显显著著。(2)构构造造t统统计计量量:(3)计计算算t统统计计量量和和对对应应的
18、的p值值(4)对对比比p值值和和。第三十一页,本课件共有47页4)残差分析)残差分析n残残差差:n残残差差序序列列:多多个个ein出出发发点点:如如果果回回归归方方程程能能较较好好地地反反映映被被解解释释变变量量的的特特征征和和变变化化规规律律,那那么么残残差差序序列列中中应应不不包包含含明明显显的的规规律律性性和和趋趋势势性性。(1)残残差差均均值值为为0的的正正态态性性分分析析;(2)残残差差的的独独立立性性分分析析:绘制残差序列的序列图;计算残差的自相关系数;DW检验。(零假设:总体的自相关系数与0无显著差异。)第三十二页,本课件共有47页n当随机扰动项存在序列相关时,进行当随机扰动项存
19、在序列相关时,进行Durbin-Watson检验:检验:n0DWdL:随机扰动项存在一阶正序列相关;随机扰动项存在一阶正序列相关;n4-dLDW4:随机扰动项存在一阶负序列相关;:随机扰动项存在一阶负序列相关;ndUDW4-dU:随机扰动项不存在序列相关;:随机扰动项不存在序列相关;ndLDWdU或者或者4-dUDW4-dL:不能确定是否存在序列相关。:不能确定是否存在序列相关。第三十三页,本课件共有47页正相关正相关不相关不相关负相关负相关第三十四页,本课件共有47页n如如果果残残差差序序列列存存在在自自相相关关,说说明明回回归归方方程程没没能能充充分分说说明明被被解解释释变变量量的的变变化
20、化规规律律,还还留留有有一一些些规规律律性性没没有有被被解解释释,也也就就是是方方程程中中遗遗漏漏了了一一些些较较为为重重要要的的的的解解释释变变量量;或或者者,变变量量存存在在滞后性;或者,回归模型选择不合适。滞后性;或者,回归模型选择不合适。第三十五页,本课件共有47页(3)异异方方差差(heteroscedasticity)分分析析:总总体体回回归归函函数数中中的的随随机机误误差差项项满满足足同同方方差差性性,即即它它们们都都有有相相同同的的方方差差。如如果果这这一一假假定定不不满满足足,则则称称线线性性回回归归模模型型存存在在异异方方差差性性。n两两种种方方式式:绘制残差图(p193图
21、)等级相关分析(得到残差序列后对其取绝对值,分别计算出残差和解释变量的秩,最后计算Spearman等级相关系数,进行等级相关分析。)第三十六页,本课件共有47页)多元回归分析的其他问题)多元回归分析的其他问题()变变量量的的筛筛选选问问题题:n向向前前筛筛选选解解释释变变量量不不断断进进入入回回归归方方程程的的过过程程,最最高高线线性性相相关关系系数数的的变变量量最最先先进进入入;n向向后后筛筛选选变变量量不不断断剔剔除除出出回回归归方方程程的的过过程程,先先全全部部引引入入,把把最最不不显显著著的的一一个个或或多多个个变变量量剔剔除除;n逐逐步步筛筛选选向向前前和和向向后后的的综综合合,在在
22、引引入入变变量量的的每每个个阶阶段段提提供供剔剔除除不不显显著著变变量量的的机机会会。第三十七页,本课件共有47页()变变量量的的多多重重共共线线性性问问题题:n指指各各个个解解释释变变量量之之间间存存在在线线性性相相关关关关系系的的现现象象。容忍度:方差膨胀因子:,大于10时,存在多重共线性条件指数:,在10以下,多重共线性比较弱,大于100时,存在严重的多重共线性。方差比例:几个不同解释变量,某个特征根能够解释的方差比例超过50%,则认为存在较强共线性。第三十八页,本课件共有47页案例案例6.4 简单线性回归分析简单线性回归分析n菲菲利利普普斯斯曲曲线线表表明明,失失业业率率和和通通货货膨
23、膨胀胀率率之之间间存存在在着着替替代代关关系系。下下面面的的资资料料给给出出了了我我国国1998-2007年年的的通通货货膨膨胀胀率率和和城城镇镇登登记记失失业业率。试用简单回归分析方法研究这种替代关系在我国是否存在。率。试用简单回归分析方法研究这种替代关系在我国是否存在。第三十九页,本课件共有47页结果分析结果分析n回归模型:回归模型:R(失业率)(失业率)=3.601+0.157*I(通货膨胀率)(通货膨胀率)n调调整整后后R平平方方为为0.326,模模型型的的拟拟合合优优度度,也也就就是是对对数数据据的的解释能力一般;解释能力一般;n因方差分析显著性为因方差分析显著性为0.049,小于,
24、小于0.05,故模型整体是显著的;,故模型整体是显著的;n两个参数是显著的。两个参数是显著的。n但通货膨胀和失业的替代关系在我国并不存在。但通货膨胀和失业的替代关系在我国并不存在。第四十页,本课件共有47页案例案例6.5 多重线性回归分析多重线性回归分析n为为了了检检验验美美国国电电力力行行业业是是否否存存在在规规模模经经济济,Nerlove(1963)收收集集了了1955年年145家家美美国国电电力力企企业业的的总总成成本本(TC)、产产量量(Q)、工工资资率率(PL)、燃燃料料价价格格(PF)及及资资本本租租赁赁价价格格(PK)的的数数据据如如下下面面的的资资料料所所示示。试试以以总总成成
25、本本为为因因变变量量,以以产产量量、工工资资率率、燃燃料料价价格格和和资资本本租租赁赁价价格格为为自自变变量量,用用多多重重回回归归分分析析方方法法研研究究其间的关系。其间的关系。第四十一页,本课件共有47页结果分析结果分析n回归模型为:回归模型为:TC=-16.544+0.006Q+0.222PF+5.098PLn模型拟合优度很好,修正的可决系数都超过了模型拟合优度很好,修正的可决系数都超过了0.9n模型是显著的,显著性均为模型是显著的,显著性均为0.000n常数项和系数的显著性都小于常数项和系数的显著性都小于0.05,显著。,显著。n美美国国电电力力企企业业的的总总成成本本受受到到产产量量
26、、工工资资率率、燃燃料料价价格格及及资资本本租赁价格的影响,该行业存在规模经济。租赁价格的影响,该行业存在规模经济。第四十二页,本课件共有47页曲线估计曲线估计n可转化为线性回归的常用非线性曲线可转化为线性回归的常用非线性曲线第四十三页,本课件共有47页可转化为直线的常用非线性曲线可转化为直线的常用非线性曲线第四十四页,本课件共有47页可转化为直线的常用非线性曲线可转化为直线的常用非线性曲线第四十五页,本课件共有47页案例案例6.6 曲线回归分析曲线回归分析n研研究究发发现现,锡锡克克氏氏试试验验阴阴性性率率随随儿儿童童年年龄龄增增长长而而升升高高。查查得得山山东东省省某某地地1-7 岁岁儿儿童童的的资资料料如如下下面面的的资资料料所所示示,试试用用曲曲线线回回归归分析方法拟合曲线。分析方法拟合曲线。第四十六页,本课件共有47页感谢大家观看第四十七页,本课件共有47页