《回归分析与相关分析.ppt》由会员分享,可在线阅读,更多相关《回归分析与相关分析.ppt(81页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第1 1页页相关分析与回归分析1、一元线性回归、一元线性回归2、多元线性回归、多元线性回归3、可线性化的非线性回归、可线性化的非线性回归 相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第2 2页页第一节第一节 相关关系相关关系 变量之间的关系,一般变量之间的关系,一般可以可以分为两大类:分为两大类:一一类类是是变变量量之之间间有有确确定定性性的的关关系系,例例如如:圆圆的的面面积积与与其其半半径径之之间间的的关关系系为为:s=r2,当当有有一一个个确确定定的的时时,对对应应的的变变量量也也是一个
2、确定的值是一个确定的值.另另一一类类是是变变量量之之间间存存在在一一定定的的制制约约关关系系,但但这这种种关关系系没没有有密密切切到到可可由由一一个个决决定定另另一一个个的的程程度度.例例如如:受受教教育育的的年年限限和和工工资资之之间间的的关关系系:一一般般的的,受受教教育育年年限限较较长长的的人人,工工资资也也较较高高,但但并并非非对对每每个个人人都都适适用用;又又如如产产品品的的产产量量与与价价格格之之间间的的关关系系;人人的的身身高高与与体体重重之之间间的的关关系系都都是是如如此此,我我们们认认为为这这些些成成对对变变量量之之间间有有一一定定的的关关系系,但但由由其其中中的的一一个个不
3、不能能确确定定另另一一个个,我我们们称称这样的关系为这样的关系为“相关关系相关关系”.相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第3 3页页变变量量间间的的关关系系确定性关系或函数关系确定性关系或函数关系y=f(x)人的身高和体重人的身高和体重家庭的收入和消费家庭的收入和消费商品的广告费和销售额商品的广告费和销售额粮食的产量和施肥量粮食的产量和施肥量股票的价格和时间股票的价格和时间学生的期中和期末考试成绩学生的期中和期末考试成绩,非非确确定定性性关关系系如果对于任何已知的如果对于任何已知的如果对于任何已知的如果对于任何已知的 x x 值值值值,变量变量变量变量 y
4、 y 按某个概率取某按某个概率取某按某个概率取某按某个概率取某些特殊的值些特殊的值些特殊的值些特殊的值,则则则则x x 和和和和 y y 之间的关系为之间的关系为之间的关系为之间的关系为随机的随机的随机的随机的.xY实变量实变量随机变量随机变量非确定性关系非确定性关系 相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第4 4页页“相关关系”的产生一般可有以下几种情况:1变变量量之之间间有有严严格格的的确确定定性性关关系系,但但由由于于测测量量误误差差(误误差是随机性的差是随机性的)使测量结果之间呈现出相关关系使测量结果之间呈现出相关关系.2两两个个变变量量X、Y(也也可
5、可以以是是多多个个变变量量)之之间间存存在在着着因因果果关关系系,但但影影响响Y的的原原因因可可能能有有很很多多,X只只是是其其中中的的一一个个,它它只只能能对对Y的的值值起起作作用用,并并不不能能决决定定Y.因因此此X、Y之之间间的的关关系系必必然然是是相相关关系关关系.3.变变量量表表面面上上看看有有一一定定的的关关系系,但但它它们们可可能能都都受受另另一一个个因素的影响,而这个因素与所考察的变量之间存在着相关性因素的影响,而这个因素与所考察的变量之间存在着相关性.我我们们在在研研究究实实际际问问题题中中,以以上上各各种种情情况况都都应应该该考考虑虑到到.不不同同的的情情况况,对对数数据据
6、的的统统计计分分析析方方法法和和结结果果的的解解释释都都会会有有一一定定的影响的影响.相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第5 5页页 在在统统计计学学中中研研究究相相关关关关系系已已形形成成了了两两个个重重要要的的分分支支,即即相相关关分分析析和和回回归归分分析析.在在应应用用中中,两两种种方方法法经经常常相相互互结结合合渗渗透透,但但它它们们研研究究的的侧侧重重点点和和应应用用面面不不同同,差差别别主主要要有有:回回归归分分析析中中变变量量Y称称为为因因变变量量,处处于于被被解解释释的的地地位位;在在相相关关分分析析中中,变变量量X、Y处处于于平平等等的
7、的地地位位,即即研研究究X、Y的的密密切切程程度度同同研研究究X、Y之之间间的的密密切切程程度度是是一一回回事事.相相关关分分析析中中所所涉涉及及的的变变量量X、Y都都是是随随机机变变量量;而而回回归归分分析析中中,因因变变量量Y是是随随机机变变量量,自自变变量量X可可以以是是随随机机变变量量,也也可可以以是是非非随随机机的的确确定定性性变变量量.通通常常的的回回归归模模型型中中,我我们们总总假假定定X是是非非随随机机变变量量;相相关关分分析析的的研研究究主主要要是是为为刻刻画画两两类类变变量量间间线线性性相相关关的的密密切切程程度度.而而回回归归分分析析不不仅仅可可以以揭揭示示变变量量X对对
8、变变量量Y影影响响的的大大小小,还还可可以以根根据据回回归归方程进行预测和控制方程进行预测和控制.相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第6 6页页“回归回归”一词的历史渊源一词的历史渊源 “回回归归”一一词词最最早早由由Francis Galton引引入入。英英国国著著名名人人类类学学家家Franics Galton(18221911)于于1885年年在在论论文文身身高高遗遗传传中中的的平平庸庸回回归归中中阐阐述述了了他他的的重重大大发发现现:子子代代的的身身高高有有向向平平均均值值靠靠拢拢的的趋趋向向。因因此此,他他用用回回归归一一词词来来描描述述子子代代
9、身身高高与与父父代代身身高高的的这这种种关关系系。随随后后,英英国国著著名名统统计计学学家家K.Pearson等等人人搜搜集集了了上上千千家家庭庭成成员员的的身身高高数数据据,分分析析出出儿儿子子的的身身高高y与与父父亲亲的的身身高高x大致可归结为一下关系:大致可归结为一下关系:y=0.516x+33.73 (单位为英寸)单位为英寸)从而进一步证实了从而进一步证实了Galton的的“回归定律回归定律”。这就。这就是回归一词最初在遗传学上的含义。是回归一词最初在遗传学上的含义。相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第7 7页页回归的现代意义:回归的现代意义:它要
10、比其原始意义广泛的多。具体地说,回归它要比其原始意义广泛的多。具体地说,回归分析的内容包括:分析的内容包括:确定响应变量与预报变量间的回归模型确定响应变量与预报变量间的回归模型,即变即变量间相关关系的数学表达式量间相关关系的数学表达式(通常称为经验公式通常称为经验公式);根据样本估计并检验回归模型及未知参数;根据样本估计并检验回归模型及未知参数;从众多的预报变量中,判断哪些变量对响应变从众多的预报变量中,判断哪些变量对响应变量的影响是显著的,哪些是不显著的;量的影响是显著的,哪些是不显著的;根据预报变量的已知值或给定值来估计或预测根据预报变量的已知值或给定值来估计或预测响应变量的平均值并给出预
11、测精度或根据响应变量响应变量的平均值并给出预测精度或根据响应变量的给定值来估计预报变量的值,即所谓的预报与控的给定值来估计预报变量的值,即所谓的预报与控制问题。制问题。相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第8 8页页第二节第二节 回归分析回归分析 一、确定回归函数的思想一、确定回归函数的思想要全面地考察两个变量要全面地考察两个变量 X、Y 之间的关系,我们就要研究之间的关系,我们就要研究Y 的的条件分布条件分布 F(y|X=x)随随 X 取值取值 x 的变化情况的变化情况.很自然我们会很自然我们会想到用想到用 F(y|X=x)的数学期望的数学期望(平均值平均
12、值)来代替它,这样就来代替它,这样就可以通过研究可以通过研究 x 与与 Y 的条件期望值之间的关系来代表的条件期望值之间的关系来代表 X 与与 Y 之间的关系之间的关系.即:即:f(x)就是就是 X=x 时随机变量时随机变量Y的条件数学期望,它随的条件数学期望,它随 x 的变的变化而变化化而变化.在直角坐标系中它是一条普通的曲线,称为回归在直角坐标系中它是一条普通的曲线,称为回归方程或回归曲线方程或回归曲线.相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第9 9页页二、确定回归函数的方法二、确定回归函数的方法 实际中,回归方程是未知的,需要由试验或观察数据去估计它.设
13、有n次试验(或有n个观察),第i次试验中X,Y的取值分别是xi和yi(i=1,2,n).然后利用这些数据对回归方程f(x)进行估计.f(x)具体的选择形式,可以根据所讨论问题的专业知识和对问题的了解程度出给出.但在更多的情况下我们是借助于所考察数据在直角坐标系中绘出的 n个样本点(xi,yi)(i=1,2,n)的走向得到启示.这样的图我们称为“散点图”.相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第1010页页 相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第1111页页 根根据据回回归归函函数数的的意意义义,当当X X取取x xi i时时
14、,Y Y的的期期望望值值应应为为f f(x xi i),由由于于随随机机误误差差,观观察察值值y yi i与与f f(x xi i)之之间间有一定的差距,即:有一定的差距,即:相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第1212页页第三节第三节 一元线性回归一元线性回归一、一元线性回归的模型一、一元线性回归的模型线性回归模型是回归分析中最重要的部分.研究两个变量之间线性关系的方法称为一元线性回归,一元线性回归方程的模型为 这里x做为一般变量,Y是因变量,a,b称为回归方程的回归系数 .相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第131
15、3页页175cm175cm175cm175cm170cm170cm170cm170cm180cm180cm180cm180cm 从Y的分布中可以看到,x 取不同的值,Y服从均值不同的正态分布,如图.模型中,如果能求模型中,如果能求得得 a,b 的值,就可以得的值,就可以得到到Y关于关于x的回归方程的回归方程.相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第1414页页二、回归系数二、回归系数 a,b 的估计方法的估计方法(最小二乘法)用用数数据据(xi,yi)(i=1,2,n)去去估估计计线线性性回回归归方程方程y=a+bx系数系数a,b.由由回回归归方方程程的的定定
16、义义,yi值值虽虽然然不不见见得得恰恰好好等等于于 a+bxi,这这 就就 是是 说说 n 个个 样样 本本 点点(xi,yi)(i=1,2,n)应应散散落落在在回回归归直直线线 y=a+bx 附附近近.这这样样我我们们就就可可以以作作一一条条直直线线 ,尽尽可可能能地地“拟拟合合”这这 n 个个点点,然然后后用用 去去估估计计回回归归方方程程中中的的a,b.相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第1515页页最小二乘法:最小二乘法:方方法法是是德德国国数数学学家家高高斯斯在在17991809年年间间发发展展起起来来的的,是是应应用用数数学学中中重重要要的的方
17、方法法.其其主主要要方方法法是是任任意意作作一一条条直直线线y=c+dx(如如图图).则则样样本本点点(xi,yi)与与此此直直线线的偏离可以用该点沿的偏离可以用该点沿 y 轴方向到此直线的距离来衡量。轴方向到此直线的距离来衡量。n个点与个点与y=c+dx的偏离值的平方和记为的偏离值的平方和记为Q,则,则作为直线与样本点偏离程度的衡量指标作为直线与样本点偏离程度的衡量指标.相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第1616页页 通通过过该该式式求求得得使使 Q 达达到到最最小小时时的的 c,d 值值,令令 ,称称为为回回归归系系数数的的最最小小二二乘乘估估计计,
18、即对任何的即对任何的 c,d 都有:都有:相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第1717页页 由二元函数求极值的方法,求出由二元函数求极值的方法,求出Q对对c,d 的偏导数,的偏导数,并令它们等于零并令它们等于零.即:即:解得:相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第1818页页引进符号:这样:相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第1919页页 例例1 考考虑虑家家庭庭月月收收入入X(元元)及及月月支支出出Y(元元)的的关关系系,我我们们抽抽取取10个个家家庭庭,调调查查了了其其月月收收入
19、入和和月月支支出出的的数数据如下:据如下:以该数据作散点图(如图),从散点图中我们看以该数据作散点图(如图),从散点图中我们看到这些点大致落在一条直线附近,因此可以用线性回到这些点大致落在一条直线附近,因此可以用线性回归来描述变量归来描述变量X 和和Y 之间的关系之间的关系.利用利用SAS回归过程回归过程可得到回归方程:可得到回归方程:相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第2020页页data abc;input x y;cards;150 20.9175 22.1200 24.4225 26.1250 27.3275 29.2300 30.3325 31.
20、9350 33.0375 33.6;proc plot;plot y*x=*;proc reg;model y=x;run;相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第2121页页(2)家庭月收入每增加)家庭月收入每增加(减少减少)1元,平均说来,月元,平均说来,月支出增加支出增加(或减少或减少)0.68元,元,(有有32存储存储);(3)当你知道某家庭月收入为)当你知道某家庭月收入为x时,你可以推测其时,你可以推测其月支出为月支出为57.867+0.682x元元.我们得到的回归方程我们得到的回归方程可以根据需要做如下的解可以根据需要做如下的解释:释:(1)月收入
21、月收入x元的家庭,元的家庭,平均说来,月支出为:平均说来,月支出为:57.867+0.682x元;元;相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第2222页页三、回归方程的检验三、回归方程的检验1随机误差随机误差 的估计的估计 由一元线性回归方程的模型:以D剩为基础作为 的估计是合理的,其估计为 相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第2323页页关于剩余平方和我们有如下解释:关于剩余平方和我们有如下解释:(1)如果试验中自变量如果试验中自变量x在既定的水平都有精确的在既定的水平都有精确的考虑,即可控因素都已考虑到了,这时考虑,即
22、可控因素都已考虑到了,这时D剩剩中只有中只有随机因素的影响,可认为随机因素的影响,可认为D剩剩就是随机误差就是随机误差.(2)如果在试验中,有些可控因素没有考虑到,如果在试验中,有些可控因素没有考虑到,这时这时D剩剩中不仅含有随机误差,还包含未加控制因中不仅含有随机误差,还包含未加控制因素的影响所产生的差异素的影响所产生的差异.由此可知,凡是对试验结果有影响而我们并由此可知,凡是对试验结果有影响而我们并没有把它做为自变量来处理的因素,都应尽量设法没有把它做为自变量来处理的因素,都应尽量设法控制,以降低误差控制,以降低误差.相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第
23、第2424页页2回归方程的回归方程的F检验检验 我我们们希希望望在在 y 的的总总差差异异中中把把由由x引引起起的的差差异异分分离离出出来来,然然后后与与剩剩余余的的部部分分进进行行比比较较,如如果果由由x变变化化引引起起的的差差异异十十分分显显著著的的话话,则则 y 与与 x 的的线线性性关关系系就就显著显著.n个个y值的总差异记为值的总差异记为D总总 由线性关系由线性关系 中中x的变化引起的差异记为的变化引起的差异记为D回回,则,则 相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第2525页页其中反映了回归自变量变差的贡献反映了其它因素的影响回回归归平平方方和和残
24、差平方和残差平方和 相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第2626页页可以证明:相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第2727页页 利用此利用此F分布可检验回归方程的显著性,列方差分布可检验回归方程的显著性,列方差分析表如下:分析表如下:方差来源方差来源平方和平方和自由度自由度均方均方F值值P值值回归回归D回回1MS回回=D回回/1F=MS回回/MS回回剩余剩余D剩剩n-2MS剩剩=D剩剩/(n-2)总平方和总平方和D总总n-1一元线性回归方程检验的方差分析表一元线性回归方程检验的方差分析表 相关分析与回归分析相关分析与回
25、归分析 4/8/20234/8/2023第第2828页页F检验法对例检验法对例1回归方程进行检验,结果如下表:回归方程进行检验,结果如下表:方差来源方差来源平方和平方和自由度自由度均方均方F值值临界值临界值回归回归13206.51113206.5136.64F0.055.32剩余剩余2883.498360.44总平方和总平方和160909表表3 方差分析表方差分析表由表中可见,回归方程显著,即可以认为Y和X之间的确存在着y=57.867+0.682x这样的线性关系.相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第2929页页四、预报与控制四、预报与控制 在在求求得得回
26、回归归方方程程并并检检验验其其显显著著性性后后,就就可可以以认认为为Y和和X之之间间在在一一定定程程度度上上有有方方程程所所给给出出的的线线性性关关系系,并并且且可可以以用用它它来来预预测测X取取不不同同值值时时Y的的估估计计值值和和估估计计区区间间,同同时时也也可可以按照以按照Y的要求来控制的要求来控制X的变化范围的变化范围.相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第3030页页1、预报问题:、预报问题:预报问题一般为对于我们得到的预报问题一般为对于我们得到的Y和和X之间的关系之间的关系 当当x=x0时,时,y应该等于什么?或者当应该等于什么?或者当x=x0时
27、,时,y大致在一个什么样的范围里?大致在一个什么样的范围里?相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第3131页页 相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第3232页页因此 而 由此得到 t 分布 相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第3333页页可得 其中 此式说明,y的置信区间不仅与有关,还与n有关,与x0靠近 的程度有关,也就是回归方程对 附近的x0有较好的预报区间.(如图)当n比较大且x0接近 时,取 相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第3434页
28、页 相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第3535页页2控制控制 控制问题是预测的反问题,要想使y在一定的范围y1y F回归回归97.946248.9732.2050.0094剩余剩余4.56231.52总和总和102.5085由方差分析表可知回归方程显著由方差分析表可知回归方程显著.表表7方差分析表方差分析表 相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第5656页页Data new2;Input y x1 x2;Cards;15.6 47.3 5.8 7.0 40.2 4.2 8.7 38.3 4.614.9 53.6 6.1
29、 13.8 36.9 6.0 19.1 50.1 6.6;Proc glm;Model y=x1 x2;Title 二元线性回归二元线性回归;Run;相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第5757页页 二元线性回归二元线性回归 Dependent Variable:YSource DF Sum of Squares Mean Square F Value Pr FModel 2 97.94634869 48.97317434 32.21 0.0094Error 3 4.56198464 1.52066155C Total 5 102.50833333 R-S
30、quare C.V.Root MSE Y Mean 0.955496 9.353864 1.23315106 13.18333333 T for Std Error ofParameter Estimate H0:Parameter=0 Pr|T|EstimateINTERCEPT -14.45624662 -3.76 0.0329 3.84387082X1 0.08121302 0.80 0.4831 0.10174417X2 4.33040031 5.80 0.0102 0.74657623 相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第5858页页回归系数检验
31、(T)如下:由回归系数的检验知:对于这里提供的样本资料而言,不能认为苗木鲜重与苗高有线性关系;苗木的鲜重与地径的大小存在着线性关系,可利用一元线性回归求出Y与x2之间的线性关系:相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第5959页页例:著名的玉米吸收土壤磷素的试验数据如下,变量x1为土壤内所含无机磷的数量,x2为土壤内溶于K2CO3溶液并受化合物水解的有机磷数量,Y为20生长温度下玉米吸收磷量,设Y与x1,x2有线性相关关系,试求回归方程,并进行检验.因变量因变量样本号样本号因变量因变量 x1x2样本号样本号因变量因变量 x1x21640.453105112.6
32、582600.423117610.9373713.119129623.1464610.634137723.1505544.724149321.6446771.765159523.1567819.44416541.93689310.1311716826.85899311.629189929.951 相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第6060页页利用SAS软件,可得回归方程.回归方程检验的方差分析表如表:方差来源方差来源平方和平方和自由度自由度均方均方F值值F0.05回归回归5975.6685322987.834276.9883.68剩余剩余6413.942
33、5815427.59617总和总和12389.6111117可知回归方程显著.相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第6161页页回归系数的T检验结果X2不显著,可以省略,重新建立回归方程,得:回归方程极显著.相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第6262页页第五节第五节第五节第五节 可线性化的非线性回归可线性化的非线性回归可线性化的非线性回归可线性化的非线性回归常见的非线性函数及其转化为线性函数的方法:常见的非线性函数及其转化为线性函数的方法:1 1、双曲线、双曲线 (图)(图)令令 ,则有,则有 相关分析与回归分析相关分
34、析与回归分析 4/8/20234/8/2023第第6363页页2指数模型(如图)两边取对数得令可得线性回归方程:相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第6464页页3、对数曲线、对数曲线 (图)(图)令令 ,则有,则有 相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第6565页页4幂指数曲线 两边取对数 令 可得一元线性回归方程 相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第6666页页5S型曲线(如图)令 得一元线性回归方程:相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第676
35、7页页6多项式曲线:y是x的m次多项式曲线 令可得多元线性回归方程 相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第6868页页第六节第六节 相关分析相关分析一、相关与回归的区别一、相关与回归的区别 在在讨讨论论两两个个变变量量之之间间的的关关系系时时,回回归归分分析析中中,X、Y处处于于不不同同的的地地位位,X是是自自变变量量,Y是是因因变变量量,不不管管X、Y是是否否有有因因果果关关系系,我我们们都都可可以以利利用用Y对对X的的回回归归方方程程,由由X的的值值来来预预测测Y的的值值,把把Y看看成成是是由由X导导致致的的结结果果.但但有有时时只只是是关关心心X、Y之
36、之间间关关系系的的密密切切程程度度,这这时时X、Y处处于于平平等等的的地地位位,这这就是相关分析的任务就是相关分析的任务.相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第6969页页 为为研研究究X、Y之之间间的的关关系系,对对X、Y 的的n 对对值值(Xi,Yi)i=1,2,n作作出出散散点点图图,观观察察点点的的分分布布,如如图图所所示示,如如果果以以为为新新的的坐坐标标原原点点,将将坐坐标标系系平平移移后,则得到后,则得到(Xi,Yi)在新坐标系下的坐标:在新坐标系下的坐标:相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第7070页页称
37、其为X、Y 之间的相关系数.相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第7171页页 相关系数与一元线性回归中的相关系数与一元线性回归中的D总,总,D回,回,D剩剩以及以及回归方程的斜率具有下列关系回归方程的斜率具有下列关系 相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第7272页页 由(由(1)、()、(2)、()、(3)式可得以下结论:)式可得以下结论:1.当当r=1时时,由由(3)式式知知,D剩剩=0,这这意意味味着着Yi的的所所有有差差异异均均由由X引引起起,无无随随机机误误差差,也也没没有有其其它它因因素素的影响,表明的影响,
38、表明Y与与X有确定的线性关系;有确定的线性关系;2.当当r=0时时,由由(2)式式中中lxx0,则则必必有有b=0,说说明明Y与与X无无线线性性关关系系;亦亦可可由由(3)式式得得Yi的的差差异异全全是是由由随机误差或其它因素引起,而与随机误差或其它因素引起,而与X无关;无关;相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第7373页页3.由由(1)式式可可知知,r21 即即 1r1,当当r在在1和和1之之间间时时,r2表表示示回回归归平平方方和和在在总总平平方方和和中中所所占占的的比比例(回归平方和是总平方和的一部分);例(回归平方和是总平方和的一部分);4.r与与
39、b具具有有相相同同的的符符号号,而而b为为回回归归直直线线的的斜斜率率,当当r0时时,b0,回回归归直直线线与与X轴轴交交为为锐锐角角,即即Y随随X的的增增大大也也有有增增大大的的趋趋势势,称称为为Y与与X正正相相关关,反反之之r0时时,b0,回回归归直直线线与与X轴轴交交为为钝钝角角,Y将将随随X的增大而减小,称为负相关的增大而减小,称为负相关.相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第7474页页三、相关系数检验三、相关系数检验其中r是总体的相关系数 可以用下面统计量对相关系数进行检验.除除了了对对相相关关系系数数进进行行t检检验验外外,统统计计工工作作者者
40、为为方方便便求求出出了了相相应应的的相相关关系系数数的的临临界界值值ra(n-2),制制成成相关系数显著性检验表相关系数显著性检验表供查用供查用 相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第7575页页例如对第三节中例1进行相关系数检验由此得线性关系显著,与F检验的结论相同.相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第7676页页多元线性回归模型的相关分析多元线性回归模型的相关分析多元线性回归模型的相关分析多元线性回归模型的相关分析(1)(1)复相关分析复相关分析复相关是指一个因变量同多个自变量之间的相关关系。复相关系数的计算指标为R
41、,它表明所有自变量同因变量关系的密切程度,也是对回归模型拟和优度的测定.(2)偏相关分析偏相关分析偏相关是指多元回归中各个自变量在其它自变量固定不变时,单个自变量同因变量的相关关系.其相关程度用偏回归系数测定(偏相关系数的计算要使用更高级的统计分析软件,如SAS、SPSS等来实现).相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第7777页页返回返回复相关系数和偏相关系数复相关系数和偏相关系数(一)复相关系数(一)复相关系数 复相关系数是指在具有多元相关关系的变量中,复相关系数是指在具有多元相关关系的变量中,用来测定因变量用来测定因变量y与一组自变量与一组自变量x1,
42、x2 ,xm 之间之间相关程度的指标。相关程度的指标。复相关系数的计算公式为:复相关系数的计算公式为:复相关系数的取值是介于复相关系数的取值是介于-1和和+1之间,和简单相之间,和简单相关系数一样,也是用其绝对值的大小来判断相关的关系数一样,也是用其绝对值的大小来判断相关的密切程度。密切程度。相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第7878页页复相关系数和偏相关系数复相关系数和偏相关系数(二)(二)偏相关系数偏相关系数 偏相关系数是在多个变量中,当其他变量保持不变的情况偏相关系数是在多个变量中,当其他变量保持不变的情况下,测定任意两个变量之间的相关程度的指标。
43、下,测定任意两个变量之间的相关程度的指标。偏偏相相关关系系数数取取值值是是介介于于-1 和和+1 之之间间,和和简简单单相相关关系系数数一样,也是用其数值的大小来判断相关的密切程度。一样,也是用其数值的大小来判断相关的密切程度。设设有有三三个个变变量量x1,x2,x3,如如果果在在这这三三个个变变量量中中,剔剔除除x3的的影影响响,可可计计算算x1,x2,对对 x3 的的偏偏相相关关系系数数,记记作作 r12,3,其计算公式为:,其计算公式为:相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第7979页页 如果在这三个变量中,剔除如果在这三个变量中,剔除x2的影响,可计
44、算的影响,可计算x1,x3,对,对x2 的偏相关系数,记作的偏相关系数,记作 r13,2,其计算,其计算公式为:公式为:如果在这三个变量中,剔除如果在这三个变量中,剔除x1的影响,可计算的影响,可计算x2,x3,对,对 x1的偏相关系数,记作的偏相关系数,记作 r 23,1,其计算,其计算公式为:公式为:相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第8080页页 如果在这三个变量中,剔除如果在这三个变量中,剔除x1的影响,可计的影响,可计算算x2,x3,对,对 x1 的偏相关系数,记作的偏相关系数,记作 r 23,1,其,其计算公式为:计算公式为:相关分析与回归分析相关分析与回归分析 4/8/20234/8/2023第第8181页页