《第八章 相关与回归分析 (2).ppt》由会员分享,可在线阅读,更多相关《第八章 相关与回归分析 (2).ppt(46页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第八章第八章 相关与回归分析相关与回归分析第一节第一节 相关分析相关分析一、事物之间的关系一、事物之间的关系 因果关系 共变关系 相关关系 例:商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系收入水平(y)与受教育程度(x)之间的关系父亲身高(y)与子女身高(x)之间的关系相关关系(相关关系(Correlation):):指变量之间存在的指变量之间存在的不确定的依存关系。不确定的依存关系。二、相关关系的类型 不相关不相关不相关不相关不相关不相关 负线性相关负线性相关负线性相关负线性相关负线性相关负线性相关 正线性相关正线性相关正线性相关正线性相关正线性相
2、关正线性相关 非线性相关非线性相关非线性相关非线性相关非线性相关非线性相关 完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关 按涉及变量的多少分为按涉及变量的多少分为相相关关关关系系的的种种类类按照表现形式不同分为按照表现形式不同分为按照变化方向不同分为按照变化方向不同分为一元相关一元相关多元相关多元相关直线相关直线相关曲线相关曲线相关负相关负相关正相关正相关三、相关系数三、相关系数 用用r表示样本相关系数表示样本相关系数,用用 表示总体相关系数。表示总体相关系数。r 的取值
3、范围:的取值范围:0|r|1 r0 为为正相关正相关,r 0 为为负相关负相关;|r|=0 表示不存在表示不存在线性线性线性线性关系;关系;|r|1 表示表示完全完全线性线性线性线性相关相关;0|r|10|r|1表示存在表示存在表示存在表示存在不同程度线性相关不同程度线性相关不同程度线性相关不同程度线性相关:|r|0.05,不相关;,不相关;P=0.05,显著相关。,显著相关。计算机操作1)作散点图,找相关趋势,若为线性用简单线性相关法。2)AnalyzeCorrelateBivariate(双变量)选取Pearson相关 3)读取结果:P0.05时,表示相关不显著*SPSS结果实例r=0.5
4、4 p=0.000(二)双变量等级相关(二)双变量等级相关(Spearman斯皮尔曼相关斯皮尔曼相关)Spearman 等级相关适用数据等级相关适用数据1、双变量,按定序尺度测量的品质变量之间、双变量,按定序尺度测量的品质变量之间 的相关性。的相关性。2、双数值型变量,分布未知,或样本较小。、双数值型变量,分布未知,或样本较小。计算公式 1、等级差数法N为等级个数为等级个数D两列成对变量的等级差数两列成对变量的等级差数2、原始等级序数法、原始等级序数法RX,RY为两列变量各自排列的等级序数为两列变量各自排列的等级序数(计算机编程公式)(计算机编程公式)计算机操作SPSS软件 AnalyzeCo
5、rrelateBivariate 选取Spearman相关 结果读取同Pearson相关法相关法上。第二节第二节 回归分析回归分析一、一、回归分析的基本概念回归分析的基本概念 将将存存在在有有相相关关性性的的两两个个变变量量,一一个个作作为为自自变变量量,另另一一个个作作为为因因变变量量,建建立立数数学学方方程程式式,用用该该方方程程自自变变量量的的值值来来估估计计、预预测测因因变变量量的的估估计计值值,这这一一过过程程称称为为回回归分析归分析。回归分析的种类回归分析的种类一元回归一元回归(简单回归)(简单回归)多元回归多元回归(复回归复回归)线性回归线性回归非线性回归非线性回归一一 元元线线
6、性性回回归归按自变量的按自变量的 个数分个数分按回归曲线按回归曲线的形态分的形态分相关分析与回归分析的关系相关分析与回归分析的关系(一)区别一)区别一)区别一)区别1、相关分析的任务是确定两个变量之间相关的方向和密切程、相关分析的任务是确定两个变量之间相关的方向和密切程度,用度,用相关系数来表示。回归分析的任务是寻找自变量因自变来表示。回归分析的任务是寻找自变量因自变量影响关系的数学表达式。用量影响关系的数学表达式。用数学模型来表示表示2、相关分析不必确定两变量中哪个是自变量,哪个是因变量,、相关分析不必确定两变量中哪个是自变量,哪个是因变量,是两个变量之间的是两个变量之间的双向关系,没有主从
7、之分;而,没有主从之分;而回归关系是两是两个变量之间的个变量之间的单向关系,是自变量对因变量的影响关系。,是自变量对因变量的影响关系。回归分析中必须区分因变量与自变量。回归分析中必须区分因变量与自变量。3、相关分析中两变量是对等的,改变两者的、相关分析中两变量是对等的,改变两者的地位,并不影响相关系数的数值,只有一个相地位,并不影响相关系数的数值,只有一个相关系数。而在回归分析中,互为因果关系的两关系数。而在回归分析中,互为因果关系的两个变量可以编制两个独立的回归方程。个变量可以编制两个独立的回归方程。4、相关分析中两变量可以都是随机的,而回、相关分析中两变量可以都是随机的,而回归分析中因变量
8、是随机的,自变量不是随机的。归分析中因变量是随机的,自变量不是随机的。(二)联系二)联系1、相关分析是回归分析的基础和前提。、相关分析是回归分析的基础和前提。只有在相关分析确定了变量之间存在一定只有在相关分析确定了变量之间存在一定相关关系的基础上建立的回归方程才有意相关关系的基础上建立的回归方程才有意义。义。2、回归分析是相关分析的继续和深化。、回归分析是相关分析的继续和深化。只有建立了回归方程才能表明变量之间的只有建立了回归方程才能表明变量之间的依赖关系,并进一步进行预测。依赖关系,并进一步进行预测。二、一元线性回归分析二、一元线性回归分析(一)一元线性回归的概念线性回归:自变量与因变量之间
9、呈线性关系的回归线性回归:自变量与因变量之间呈线性关系的回归关系。关系。一元一元一元一元线性回归是指只有线性回归是指只有一个自变量一个自变量一个自变量一个自变量的线性回归。的线性回归。一元线性回归又称为简单线性回归。一元线性回归又称为简单线性回归。(二)分析指标(二)分析指标 1、回归方程的建立、回归方程的建立 2、回归系数及方程的有效性检验、回归系数及方程的有效性检验(三)线性回归的基本假设 1两变量呈线性关系,且显著相关两变量呈线性关系,且显著相关 2因变量的分布为正态因变量的分布为正态(四)一元线性回归方程的通式式中:式中:为直线的截距;为直线的截距;为回归系数(也是回归直线的斜率)为回
10、归系数(也是回归直线的斜率)(五)一元线性回归方程的建立建立回归方程的步骤一般包括建立回归方程的步骤一般包括建立回归方程的步骤一般包括建立回归方程的步骤一般包括:1、根据数据资料作散点图,判断直线关系;、根据数据资料作散点图,判断直线关系;2、选定计算回归系数的方法计算、选定计算回归系数的方法计算与与 *P265 公式公式8.20 8.21(计算机计算的第一类重要指标(计算机计算的第一类重要指标)3、将、将与与代入直线方程的通式,得到回归方程。代入直线方程的通式,得到回归方程。4、回归系数及方程的有效性检验、回归系数及方程的有效性检验 一般原理:最小二乘法x xy y(x xn n ,y yn
11、 n)(x x1 1,y y1 1)(x x2 2,y y2 2)(x xi i,y yi i)e ei i =y yi i-y yi i(六)一元线性回归方程的检验(六)一元线性回归方程的检验1、一元线性回归方程的检验的意义根据样本数据计算出的回归方程可能有一定的抽样误根据样本数据计算出的回归方程可能有一定的抽样误差。为了考查这两个变量在总体内是否存在线性关系,差。为了考查这两个变量在总体内是否存在线性关系,以及回归方程对估计预测因变量的有效性如何,在回以及回归方程对估计预测因变量的有效性如何,在回归方程应用之前,首先应进行显著性检验。归方程应用之前,首先应进行显著性检验。2、一元线性回归方
12、程显著性检验的方法 有三种等效的方法有三种等效的方法 对对两两个个变变量量的的相相相相关关关关系系系系数数数数进进行行总总体体零零相相关关的的显显著著性检验性检验(拟合优度检验)(拟合优度检验)对对回归系数回归系数回归系数回归系数进行显著性检验进行显著性检验 对对回归方程整体回归方程整体回归方程整体回归方程整体进行方差分析进行方差分析(1)拟合优度测量)拟合优度测量(计算机分析的第二个重要指标)(计算机分析的第二个重要指标)指测量各个散点是否紧密的分布在回归线两边,即在多条回归线中,散点紧密的分布指测量各个散点是否紧密的分布在回归线两边,即在多条回归线中,散点紧密的分布在回归线两边的线是最好的
13、。在回归线两边的线是最好的。用可决系数或测定系数用可决系数或测定系数 r2进行度量。进行度量。回归偏差回归偏差 r2=(P268 公式公式8.26 8.27)总偏差总偏差*总偏差:指样本中个体实际观察的因变量总偏差:指样本中个体实际观察的因变量yi值偏离因变量值偏离因变量Y平均值的状况;平均值的状况;*回归偏差:指用样本中个体的实际自变量回归偏差:指用样本中个体的实际自变量xi的值代入回归方程时,计算出的的值代入回归方程时,计算出的Y回归值回归值偏离因变量偏离因变量Y平均值的状况。平均值的状况。0 r21(2)回归系数显著性检验)回归系数显著性检验(计算机计算的第三个重要指标)(计算机计算的第
14、三个重要指标)用用t检验法:检验法:P2690 公式公式8.28结果判定方法:结果判定方法:(1)与临界比较法)与临界比较法 (2)用)用P值法值法 P0.05时有效时有效(3)回归方程的显著性检验)回归方程的显著性检验(计算机计算的第四个重要指标)(计算机计算的第四个重要指标)在多元回归分析中,回归方程显著性检验的是当用多个自变量共同预测在多元回归分析中,回归方程显著性检验的是当用多个自变量共同预测因变量因变量Y时,预测是否准确。时,预测是否准确。用用F检验法:检验法:回归偏差回归偏差 F=(P281 公式公式8.52)残差残差*残差:指总偏差中除去回归偏差后仍然对回归值与实际观察的残差:指
15、总偏差中除去回归偏差后仍然对回归值与实际观察的Y值不能值不能解释的部分,即由随机因素造成的差异。解释的部分,即由随机因素造成的差异。结果判定方法:结果判定方法:(1)与临界值比较法)与临界值比较法 (2)用)用P值法值法 P0.05时有效时有效 回归方程的方差分析表变异变异来源来源平方平方和和自由自由度度方差方差F F 值值概率概率回归回归SSRdfRMSRP残差残差SSEdfEMSE总变总变异异SSTdfT回归方程方差分析表(七)一元线性回归的计算机软件操作(七)一元线性回归的计算机软件操作 SPSS软件 AnalyzeRegressionLiner在Dependent窗口中输入因变量 在I
16、ndependent窗口中输入自变量 数据读取 (1 1)找出)找出a a、b b值,写出方程值,写出方程 outputoutput第第3 3表,表,找找coefficientcoefficient列列 a aConstantConstant b bX VariableX Variable (2 2)依据判定系数值进行拟合优度判断)依据判定系数值进行拟合优度判断 outputoutput第第1 1表,找表,找R squareR square,用经验法,用经验法。(3 3)依据回归系数检验值进行回归系数的有效性判断)依据回归系数检验值进行回归系数的有效性判断 outputoutput第第3 3表
17、,找表,找t t、P-valueP-value列分别找出列分别找出tata、tbtb 依据依据P P值判断。值判断。(4 4)依据回归方程)依据回归方程F F检验值进行回归的有效性判断检验值进行回归的有效性判断 outputoutput第第2 2表,找表,找F F值与值与 P-valueP-value 依据依据P P值判断。值判断。实例分析实例分析1实例分析实例分析2P272 图8.8用国内生产总值(X)对地方预算内财政收入(Y)的预测分析.三多元线性回归分析三多元线性回归分析 研究用多个自变量预测一个因变量研究用多个自变量预测一个因变量Y的值。的值。(一)(一)方程形式及操作方法方程形式及操
18、作方法 y=a+b1x1+b2x2+bKxK 分析指标与过程同一元线性。分析指标与过程同一元线性。(二)计算机操作(二)计算机操作 过程与命令同一元线性回归。过程与命令同一元线性回归。多元线性回归一般采用逐步回归方法表多元线性回归一般采用逐步回归方法表 Stepwise *依据结果:依据结果:(1)在多个自变量中,排除无效变量,保留有效变量)在多个自变量中,排除无效变量,保留有效变量 (2)建立有效的方程。)建立有效的方程。多元线性回归实例分析:P277 图图8.10 用国内生产总值(用国内生产总值(X1)、第一产业就业比重()、第一产业就业比重(X2)对财政收入(对财政收入(Y)的预测分析。
19、)的预测分析。因变量因变量财政收入财政收入 自变量自变量国内生产总值、第一产业就业比重国内生产总值、第一产业就业比重上机实践操作上机实践操作6:相关与回归分析:相关与回归分析演示:(演示:(1)EXCELL软件软件 (2)SPSS中的相关与回归分析方法。中的相关与回归分析方法。作业作业:P290第第3题,用题,用SPSS进行相关与回归分析。进行相关与回归分析。本章小结:本章小结:本章应重点掌握本章应重点掌握:(1)Pearson、Spearman相关分析各自适用的资料。相关分析各自适用的资料。(2)相关分析的分析指标及计算机操作;)相关分析的分析指标及计算机操作;(3)回归分析的分析指标、过程。学会用)回归分析的分析指标、过程。学会用EXCEL、SPSS软件进行回归分析操作以及数据读取。软件进行回归分析操作以及数据读取。