《直线回归与相关.ppt》由会员分享,可在线阅读,更多相关《直线回归与相关.ppt(63页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第八章第八章 直线回归与相关直线回归与相关 前面各章我们讨论的问题,都只涉及到一前面各章我们讨论的问题,都只涉及到一个变量,如体重个变量,如体重、日增重、产仔数、体温、血、日增重、产仔数、体温、血糖浓度糖浓度、产奶量、产奶量、产毛量或孵化率、产毛量或孵化率、发病率、发病率等。等。但是,由于客观事物在发展过程中相互联但是,由于客观事物在发展过程中相互联系、相互影响,因而在畜牧、水产等试验研究系、相互影响,因而在畜牧、水产等试验研究中常常要研究两个或两个以上变量间的关系。中常常要研究两个或两个以上变量间的关系。下一张下一张 主主 页页 退退 出出 上一张上一张 最高月最高月产产、猪瘦肉率与背膘厚度
2、、眼肌面积、胴体长;猪瘦肉率与背膘厚度、眼肌面积、胴体长;猪瘦肉率与背膘厚度、眼肌面积、胴体长;猪瘦肉率与背膘厚度、眼肌面积、胴体长;绵羊产毛量与体重、胸围、体长绵羊产毛量与体重、胸围、体长;黑白花奶牛的一胎黑白花奶牛的一胎305天天产产奶量与奶量与、最高日、最高日产产天数;天数;90天天产产奶量、奶量、最高日最高日产产猪的增重与饲料消耗;猪的增重与饲料消耗;雏鹅重与雏鹅重与雏鹅重与雏鹅重与7070日龄重;日龄重;日龄重;日龄重;绵羊胸围与体绵羊胸围与体绵羊胸围与体绵羊胸围与体长长;仔猪初生重与断奶重;仔猪初生重与断奶重;仔猪初生重与断奶重;仔猪初生重与断奶重;例如例如 变量间的关系有两类:变
3、量间的关系有两类:一类是变量间存在着完全确定性的关系,一类是变量间存在着完全确定性的关系,可以用精确的数学表达式来表示。可以用精确的数学表达式来表示。如长方形的面积如长方形的面积(S)与与 长(长(a)和)和 宽宽(b)的关系可以表达为:的关系可以表达为:S=ab。它们之间它们之间的关系是确定性的,只要知道了其中两个变量的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一个变量的值,这的值就可以精确地计算出另一个变量的值,这类变量间的关系称为类变量间的关系称为函数关系函数关系。下一张下一张 主主 页页 退退 出出 上一张上一张 另一类是另一类是 变变 量量 间不存在完全的确定性关
4、间不存在完全的确定性关系,不能用精确的数学公式来表示。系,不能用精确的数学公式来表示。如黄牛的体长与体重的关系;仔猪初生重如黄牛的体长与体重的关系;仔猪初生重与断奶重的关系;猪瘦肉率与背膘厚度、眼肌与断奶重的关系;猪瘦肉率与背膘厚度、眼肌面积、胴体长等的关系等等,面积、胴体长等的关系等等,这些变量间都存这些变量间都存在着十分密切的关系,但不能由一个或几个变在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。量的值精确地求出另一个变量的值。像这样一像这样一类关系在生物界中是大量存在的,统计学中把类关系在生物界中是大量存在的,统计学中把这些变量间的关系称为这些变量间的关系称为相
5、关关系相关关系,把存在相关,把存在相关关系的变量称为关系的变量称为相关变量相关变量。下一张下一张 主主 页页 退退 出出 上一张上一张 相关变量间的关系一般分为两种相关变量间的关系一般分为两种:一种是一种是因果关系因果关系,即一个变量的变化受另,即一个变量的变化受另一个或几个变量的影响。如仔猪的生长速度受一个或几个变量的影响。如仔猪的生长速度受遗传特性、营养水平、饲养管理条件等因素的遗传特性、营养水平、饲养管理条件等因素的影响,子代的体高受亲本体高的影响;影响,子代的体高受亲本体高的影响;另一种是另一种是平行关系平行关系,它们互为因果或共同,它们互为因果或共同受到另外因素的影响。如黄牛的体长和
6、胸围之受到另外因素的影响。如黄牛的体长和胸围之间的关系,猪的背膘厚度和眼肌面积之间的关间的关系,猪的背膘厚度和眼肌面积之间的关系等都属于平行关系。系等都属于平行关系。下一张下一张 主主 页页 退退 出出 上一张上一张 统计学上采用回归分析统计学上采用回归分析(regression analysis)研究呈因果关系的相关变量间的关研究呈因果关系的相关变量间的关系。系。表示原因的变量称为自变量,表示结果的表示原因的变量称为自变量,表示结果的变量称为依变量。变量称为依变量。研究研究“一因一果一因一果”,即一个自变量与一个,即一个自变量与一个依变量的回归分析称为依变量的回归分析称为一元回归分析一元回归
7、分析;研究研究“多因一果多因一果”,即多个自变量与一个,即多个自变量与一个依变量的回归分析称为依变量的回归分析称为多元回归分析多元回归分析。一元回归分析又分为一元回归分析又分为直线回归分析直线回归分析与与曲线曲线回归分析回归分析两种;多元回归分析又分为两种;多元回归分析又分为多元线性多元线性回归分析回归分析与与多元非线性回归分析多元非线性回归分析两种。两种。下一张下一张 主主 页页 退退 出出 上一张上一张 回归分析的任务是揭示出呈回归分析的任务是揭示出呈因果关系的相关变量间的联系形因果关系的相关变量间的联系形式,建立它们之间的回归方程,式,建立它们之间的回归方程,利用所建立的回归方程,由自变
8、利用所建立的回归方程,由自变量(原因)来预测、控制依变量量(原因)来预测、控制依变量(结果)。(结果)。统计学上采用相关分析统计学上采用相关分析 (correlation analysis)研究呈平行关系的相关变量之间的关研究呈平行关系的相关变量之间的关系。系。对两个变量间的直线关系进行相关分析称为对两个变量间的直线关系进行相关分析称为简单相关分析简单相关分析(也叫(也叫直线相关分析直线相关分析););对多个变量进行相关分析时,研究一个变量对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为与多个变量间的线性相关称为复相关分析复相关分析;研究;研究其余变量保持不变的情况下两个变量间
9、的线性相其余变量保持不变的情况下两个变量间的线性相关称为关称为偏相关分析偏相关分析。下一张下一张 主主 页页 退退 出出 上一张上一张 第一节第一节 直线回归直线回归 一、直线回归方程的建立一、直线回归方程的建立 对于两个相关变量,一个变量用对于两个相关变量,一个变量用x表示,另表示,另一个变量用一个变量用y表示,如果通过试验或调查获得两表示,如果通过试验或调查获得两个变量的个变量的n对观测值:对观测值:(x1,y1),(),(x2,y2),),(,(xn n,yn n)下一张下一张 主主 页页 退退 出出 上一张上一张 为了直观地看出为了直观地看出x和和y间的变化趋势,可将间的变化趋势,可将
10、每一对每一对 观观 测测 值值 在在 平平 面直角坐标系描点,作面直角坐标系描点,作出散点图出散点图 (见图见图8-1)。从散点图(从散点图(图图8-1)可以看出:)可以看出:两个变量间直线关系的性质(是正相关还两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);是负相关)和程度(是相关密切还是不密切);下一张下一张 主主 页页 退退 出出 上一张上一张 散点图散点图直观地、定性地直观地、定性地表示了两个变量之表示了两个变量之间的关系。为了探讨它们之间的规律性,还必间的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系须根据观测值将其内在关系定量地定量地表达
11、出来。表达出来。两个变量间有关或无关两个变量间有关或无关;若有关若有关,两个变量两个变量间关系类型,是直线型还是曲线型;间关系类型,是直线型还是曲线型;如果呈因果关系的两个相关变量如果呈因果关系的两个相关变量y(依变量依变量)与与x(自变量自变量)间的关系是直线关系,根据间的关系是直线关系,根据n对对观测值所描出的散点图,如观测值所描出的散点图,如图图81(b)和和图图81(e)所示。)所示。由于依变量由于依变量y的实际观测值总是带有随机误的实际观测值总是带有随机误差,因而依变量差,因而依变量y的实际观测值的实际观测值yi i可用自变量可用自变量x的实际观测值的实际观测值xi i表示为:表示为
12、:(i i=1,2,=1,2,n n)(8181)其中其中:x 为可以观测的一般变量为可以观测的一般变量(也可以是可以观测也可以是可以观测的随机变量的随机变量);y 为可以观测的随机变量为可以观测的随机变量;这就是直线回归的这就是直线回归的数学模型数学模型。我们可以根据。我们可以根据实际观测值对实际观测值对,以及方差以及方差 做出估计。做出估计。i i为相互独立,且都服从为相互独立,且都服从N(0,)的随机)的随机变量。变量。在在x、y直角坐标平面上可以作出无数直角坐标平面上可以作出无数 条条直线,我们直线,我们把所有直线中最接近散点图中全部散把所有直线中最接近散点图中全部散点的直线用来表示点
13、的直线用来表示x与与y的直线关系的直线关系,这条直线称,这条直线称为为回归直线回归直线。下一张下一张 主主 页页 退退 出出 上一张上一张 设回归直线的方程为设回归直线的方程为:(8-2)其中,其中,a是是的估计值,的估计值,b是是的估计值。的估计值。a、b应使回归估计值应使回归估计值 与实际观测值与实际观测值y的偏差的偏差平方和最小平方和最小,即:,即:根据微积分学中的求极值的方法,令根据微积分学中的求极值的方法,令 Q对对a、b的一阶偏导数等于的一阶偏导数等于0,即:,即:最最 小小 整理得关于整理得关于a、b的的正规方程组正规方程组:下一张下一张 主主 页页 退退 出出 上一张上一张 解
14、正规方程组,得:解正规方程组,得:(8-3)(8-4)(8-3)式中的分子是自变量)式中的分子是自变量x的离均的离均差差 与与 依依 变变 量量 y 的的 离离 均均 差差 的的 乘乘 积积和和 ,简,简 称称 乘积和乘积和,记作,记作 ,分母是自变量,分母是自变量x的离均差的离均差 平方和平方和 ,记作,记作SSX。a叫做样本叫做样本回归截距回归截距,是回归直线与,是回归直线与y轴交点的纵坐标,当轴交点的纵坐标,当x=0时,时,=a;b叫做样本叫做样本回归系数回归系数,表,表 示示 x 改改 变变一个单位,一个单位,y平均改变的数量;平均改变的数量;b 的符号的符号反映了反映了x影响影响y的
15、性质,的性质,b的绝对值大小反的绝对值大小反映了映了 x 影响影响 y 的的 程度程度;的估计值。的估计值。叫做叫做回归估计值回归估计值,是当,是当x在在其研在在其研究究 范范 围围 内内 取某一个值时,取某一个值时,y值平均数值平均数 回归方程的基本性质:回归方程的基本性质:如果将(如果将(8-4)式代入()式代入(8-2)式,得到)式,得到回归方程的另一种形式回归方程的另一种形式(中心化形式中心化形式):下一张下一张 主主 页页 退退 出出 上一张上一张 性质性质1最小;最小;性质性质2;性质性质3 回回 归归 直直 线线 通通 过过 点点。(8-5)【例例8.1】在四川白鹅的生产性能研究
16、中,在四川白鹅的生产性能研究中,得到如下一组关于雏鹅重(得到如下一组关于雏鹅重(g)与)与70日龄重日龄重(g)的数据,试建立的数据,试建立70日龄重日龄重(y)与雏鹅重与雏鹅重(x)的直的直线回归方程。线回归方程。表表8-1 四川白鹅雏鹅重与四川白鹅雏鹅重与70日龄重测定结果日龄重测定结果 (单位:(单位:g)下一张下一张 主主 页页 退退 出出 上一张上一张 1、作散点图、作散点图 以雏鹅重(以雏鹅重(x)为横坐为横坐标,标,70日龄重(日龄重(y)为纵坐标作散点图,为纵坐标作散点图,见见图图8-3。2、计算回归截距、计算回归截距a,回归系数回归系数b,建立直线回归方程建立直线回归方程 首
17、先根据实际观测值计算出首先根据实际观测值计算出 下下 列数列数据:据:下一张 主 页 退 出 上一张 进而计算出进而计算出b、a:得到四川白鹅的得到四川白鹅的70日龄重日龄重y对雏鹅重对雏鹅重x的的直线回归方程为:直线回归方程为:根据直线回归方程可作出回归直线,见图根据直线回归方程可作出回归直线,见图8-3。从图。从图8-3看出,并不是所有的散点都恰看出,并不是所有的散点都恰好落在回归直线上,这说明好落在回归直线上,这说明用用 去估计去估计y是有是有偏差的。偏差的。下一张下一张 主主 页页 退退 出出 上一张上一张 3 3、直线回归的偏离度估计、直线回归的偏离度估计、直线回归的偏离度估计、直线
18、回归的偏离度估计 偏差平方和偏差平方和偏差平方和偏差平方和 的大小表示了实测点与回归的大小表示了实测点与回归的大小表示了实测点与回归的大小表示了实测点与回归直线偏离的程度,因而偏差平方和又称为直线偏离的程度,因而偏差平方和又称为直线偏离的程度,因而偏差平方和又称为直线偏离的程度,因而偏差平方和又称为离回归平方离回归平方离回归平方离回归平方和和和和。统计学已经证明:在直线回归分析中离回归平方。统计学已经证明:在直线回归分析中离回归平方。统计学已经证明:在直线回归分析中离回归平方。统计学已经证明:在直线回归分析中离回归平方和的自由度为和的自由度为和的自由度为和的自由度为n n-2-2。于是可求得于
19、是可求得于是可求得于是可求得离回归均方离回归均方离回归均方离回归均方为:为:为:为:离回归均方是模型(离回归均方是模型(离回归均方是模型(离回归均方是模型(8-18-1)中)中)中)中 2 2的估计值。的估计值。的估计值。的估计值。离回归均方的平方根叫离回归均方的平方根叫离回归均方的平方根叫离回归均方的平方根叫离回归标准误离回归标准误离回归标准误离回归标准误,记为,记为,记为,记为 ,即即即即 (8-6)离回归标准误离回归标准误Syx的大小表示了回归直线与的大小表示了回归直线与实测点偏差的程度实测点偏差的程度,即回归估测值,即回归估测值 与与 实实 际际观测值观测值y偏差的程度,于是我们偏差的
20、程度,于是我们把离回归标准把离回归标准误误Syx用来表示回归方程的偏离度。用来表示回归方程的偏离度。下一张下一张 主主 页页 退退 出出 上一张上一张 以后我们将证明:以后我们将证明:(8-7)利用(利用(8-7)式先计算出)式先计算出 ,然后,然后再代入(再代入(8-6)式求)式求Syx。对于对于【例例8.1】有有所以所以二、直线回归的显著性检验二、直线回归的显著性检验 若若x和和y变量间并不存在直线关系,变量间并不存在直线关系,但由但由n对观测值(对观测值(xi,yi)也可以根据上面介绍的方也可以根据上面介绍的方法求得一个回归方程法求得一个回归方程 =a+bx。显然,这样显然,这样的回归方
21、程所反应的两个变量间的回归方程所反应的两个变量间 的直线关系是的直线关系是不真实的。不真实的。如何判断直线回归方程所反应的两如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这取决于变个变量间的直线关系的真实性呢?这取决于变量量x与与y间是否存在直线关系。我们先探讨依变间是否存在直线关系。我们先探讨依变量量y的变异,然后再作出统计推断。的变异,然后再作出统计推断。下一张下一张 主主 页页 退退 出出 上一张上一张 1、直线回归的变异来源、直线回归的变异来源 图图8-4 的分解图的分解图 从图从图8-4看到:看到:上式两端平方,然后对所有的上式两端平方,然后对所有的n点求和,则有点求和
22、,则有 下一张下一张 主主 页页 退退 出出 上一张上一张 由由 于于所所 以以于于 是是 所以有所以有所以有所以有 (8-88-8)反映了反映了反映了反映了y y的总变异程度,称为的总变异程度,称为的总变异程度,称为的总变异程度,称为y y的总的总的总的总平方和,记为平方和,记为平方和,记为平方和,记为SSSSy y;反映了由于反映了由于反映了由于反映了由于y y与与与与x x间存在直线关系所间存在直线关系所间存在直线关系所间存在直线关系所引起的引起的引起的引起的y y的变异程度,称为回归平方和,记为的变异程度,称为回归平方和,记为的变异程度,称为回归平方和,记为的变异程度,称为回归平方和,
23、记为SSSSRR;反映了除反映了除y与与x存在直线关系以外的存在直线关系以外的原因,包括随机误差所引起的原因,包括随机误差所引起的y的变异程度,称的变异程度,称为离回归平方和或剩余平方和,记为为离回归平方和或剩余平方和,记为SSr。(8-8)式又可表示为:式又可表示为:(8-9)这表明这表明y的总平方和剖分为的总平方和剖分为 回归平方和回归平方和 与离与离回归平方和两部分。与此相对应,回归平方和两部分。与此相对应,y的总自由度的总自由度dfy也划分为回归自由度也划分为回归自由度dfr与离回归自由度与离回归自由度dfr两部分,即两部分,即 下一张下一张 主主 页页 退退 出出 上一张上一张 (8
24、-10)在直线回归分析中,回归自由度等于自在直线回归分析中,回归自由度等于自变量的个数,变量的个数,即即 ;y 的的 总总 自自 由由度度 ;离回归自由度;离回归自由度 。于是:。于是:离回归均方离回归均方 ,回回 归归 均均 方方 。2、回归关系显著性检验、回归关系显著性检验F检验检验 x与与y两个变量间是否存在直线关系,可用两个变量间是否存在直线关系,可用F检验法进行检验。检验法进行检验。无效假设无效假设HO:=0,备择假设备择假设HA:0。在无效假设成立的条件下,回归均方与离回在无效假设成立的条件下,回归均方与离回归均方的比值服从归均方的比值服从 和和 的的F分布,分布,所以可以用所以可
25、以用 dfdf1 1=1,=1,dfdf2 2=n n-2-2 (8-11)下一张下一张 主主 页页 退退 出出 上一张上一张 来检验回归关系即回归方程的显著性。来检验回归关系即回归方程的显著性。回归平方和还可用下面的公式计算得到:回归平方和还可用下面的公式计算得到:(8-12)(8-13)根据(根据(8-9)式,可得到离回归平方和计算)式,可得到离回归平方和计算公式为:公式为:下一张下一张 主主 页页 退退 出出 上一张上一张 对于对于【例例8.1】资料,有资料,有而而 。于是可以。于是可以列出方差分析表进行回归关系显著性检验。列出方差分析表进行回归关系显著性检验。表表8-2 四川白鹅四川白
26、鹅70日龄重与雏鹅重回归关系日龄重与雏鹅重回归关系 方差分析方差分析 下一张下一张 主主 页页 退退 出出 上一张上一张 因为因为 ,表,表明四川白鹅明四川白鹅70日龄重与雏鹅重间存在极显著的日龄重与雏鹅重间存在极显著的直线关系。直线关系。3、回归系数的显著性检验、回归系数的显著性检验t检验检验 采用回归系数的显著性检验采用回归系数的显著性检验t检验也可检检验也可检验验x与与y间是否存在直线关系。回归系数显著性间是否存在直线关系。回归系数显著性检验的无效假设和备择假设为检验的无效假设和备择假设为 HO:0,HA:0。t 检验的计算公式为:检验的计算公式为:(8-14)(8-15)其中,其中,S
27、b b为回归系数标准误。为回归系数标准误。对于对于 【例例8.1】资资 料料,已计算得,已计算得 故有故有 下一张下一张 主主 页页 退退 出出 上一张上一张 当当 ,查,查t值表,得值表,得 因因 ,否定否定HO:0,接受接受HA:0,即直线,即直线回归系数回归系数b=21.7122是极显著的,表明四川是极显著的,表明四川白鹅白鹅 70 日龄重日龄重 与雏鹅重间存在极显著的直线与雏鹅重间存在极显著的直线关系,可用所建立的直线回归方程来进行关系,可用所建立的直线回归方程来进行 预测预测和控制。和控制。F检验的结果与检验的结果与t检验的结果一致。检验的结果一致。事实上,统计学已证明,在直线回归分
28、析事实上,统计学已证明,在直线回归分析中,这二种检验方法是等价的,可任选一种进中,这二种检验方法是等价的,可任选一种进行检验。行检验。下一张下一张 主主 页页 退退 出出 上一张上一张 特别要指出的是:利用直线回归方程进行预特别要指出的是:利用直线回归方程进行预测或控制时,一般测或控制时,一般 只只 适适 用于原来研究的范围,用于原来研究的范围,不能随意把范围扩大,因为在研究的范围内两变不能随意把范围扩大,因为在研究的范围内两变量是直线关系,这并不能保证在这研究范围之外量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。若需要扩大预测和控制范围,仍然是直线关系。若需要扩大预测和控制范围,
29、则要有充分的理论依据或进一步的实验依据。利则要有充分的理论依据或进一步的实验依据。利用直线回归方程进行预测或控制用直线回归方程进行预测或控制,一一 般只能内般只能内插,不要轻易外延。插,不要轻易外延。第二节第二节 直线相关直线相关 进行直线相关分析的基本任务在于根据进行直线相关分析的基本任务在于根据x、y的实际观测值,计算表示两个相关变量的实际观测值,计算表示两个相关变量x、y间线性相关程度和性质的统计量间线性相关程度和性质的统计量相相关系数关系数r并进行显著性检验。并进行显著性检验。下一张下一张 主主 页页 退退 出出 上一张上一张 一、决定系数和相关系数一、决定系数和相关系数 在上一节中已
30、经证明了等式:在上一节中已经证明了等式:在上一节中已经证明了等式:在上一节中已经证明了等式:从这个等式不难看到:从这个等式不难看到:从这个等式不难看到:从这个等式不难看到:y y与与与与x x直线回归效果的好直线回归效果的好直线回归效果的好直线回归效果的好坏取决于回归平方和坏取决于回归平方和坏取决于回归平方和坏取决于回归平方和 与离回归平方和与离回归平方和与离回归平方和与离回归平方和 的大小,或者说取决于回归平方和在的大小,或者说取决于回归平方和在的大小,或者说取决于回归平方和在的大小,或者说取决于回归平方和在y y的的的的总平方和总平方和总平方和总平方和 中所占的比例的大小。这个比例越中所占
31、的比例的大小。这个比例越中所占的比例的大小。这个比例越中所占的比例的大小。这个比例越大,大,大,大,y y与与与与x x的直线回归效果就越好,反之则差。的直线回归效果就越好,反之则差。的直线回归效果就越好,反之则差。的直线回归效果就越好,反之则差。我们把比值我们把比值我们把比值我们把比值 叫叫叫叫 做做做做 x x 对对对对 y y 的的的的决定系数决定系数决定系数决定系数 (coefficient of coefficient of determinationdetermination),),),),记为记为记为记为 r r2 2,即即即即 下一张下一张 主主 页页 退退 出出 上一张上一张
32、 (8-24)决定系数的大小表示了回归方程估测可靠决定系数的大小表示了回归方程估测可靠程度的高低程度的高低,或者说表示了回归直线拟合度的,或者说表示了回归直线拟合度的高低。显然有高低。显然有0r21。因为因为 而而SPxy/SSx是以是以x为自变量、为自变量、y为依变量时为依变量时的回归系数的回归系数byxyx。若把若把y作为自变量作为自变量、x作为作为依变量依变量,则回归系数,则回归系数 bxyxy =SPxy/Ssy,所以所以决定系数决定系数r2等于等于y对对x的回归系数与的回归系数与 x对对y的回的回归系数的乘积。这就是说,决定系数反应了归系数的乘积。这就是说,决定系数反应了x为自变量、
33、为自变量、y为依变量和为依变量和y为自变量为自变量、x为依为依变量时两个相关变量变量时两个相关变量x与与y直线相关的信息直线相关的信息,即即决定系数表示了决定系数表示了 两个互为因果关系的相关变两个互为因果关系的相关变量间直线相关的程度量间直线相关的程度。但决定系数介于。但决定系数介于0和和1之之间,不能反应直线关系的性质间,不能反应直线关系的性质是同向增减是同向增减或是异向增减。或是异向增减。下一张下一张 主主 页页 退退 出出 上一张上一张 若求若求r2的平方根,且取平方根的符号与乘的平方根,且取平方根的符号与乘积和积和SPxy的符号一致,即与的符号一致,即与bxy、byx的符号的符号一致
34、,这样求出的平方根一致,这样求出的平方根既可表示既可表示y与与x的直线的直线相关的程度,也可表示直线相关的性质相关的程度,也可表示直线相关的性质。统计。统计学上把这样计算所得的统计量称为学上把这样计算所得的统计量称为x与与y的相关的相关系数(系数(coefficient of correlation),),记记为为r,即即 (8-25)(8-26)下一张 主 页 退 出 上一张 二、相关系数的计算二、相关系数的计算 【例例8.6】计算计算10只绵羊的胸围(只绵羊的胸围(cm)和体重和体重(kg)的相关系数。的相关系数。表表8-3 10只绵羊胸围和体重资料只绵羊胸围和体重资料下一张下一张 主主
35、页页 退退 出出 上一张上一张 根据表根据表8-3所列数据先计算出:所列数据先计算出:代入(代入(8-25)式得:)式得:即绵羊胸围与体重的相关系数为即绵羊胸围与体重的相关系数为0.8475。下一张下一张 主主 页页 退退 出出 上一张上一张 三、相关系数的显著性检验三、相关系数的显著性检验 上述根据实际观测值计算得来的相关系数上述根据实际观测值计算得来的相关系数r是样本相关系数,是样本相关系数,它是双变量正态总体中的总它是双变量正态总体中的总体相关系数体相关系数的估计值。样本相关系数的估计值。样本相关系数r是否来是否来自自0的总体,还须对样本相关系数的总体,还须对样本相关系数r 进行显进行显
36、著性检验。著性检验。此此 时时 无无 效效 假假 设、备设、备 择择 假假 设设 为为HO:=0,HA:0。与直线回归关系显著与直线回归关系显著性检验一样,可采用性检验一样,可采用t检验法与检验法与F检验法对相关检验法对相关系数系数r的显著性进行检验。的显著性进行检验。t 检验的计算公式为:检验的计算公式为:t=,df=n-2 (8-27)其中,其中,叫做相关系数标准,叫做相关系数标准误。误。F检验的计算公式为:检验的计算公式为:F=,dfdf1 1=1=1,dfdf2 2=n n-2-2 (8-28)下一张下一张 主主 页页 退退 出出 上一张上一张 统计学家已根据相关系数统计学家已根据相关
37、系数统计学家已根据相关系数统计学家已根据相关系数r r显著性显著性显著性显著性t t检验法计算出了检验法计算出了检验法计算出了检验法计算出了临界临界临界临界r r值并列出了表格。值并列出了表格。值并列出了表格。值并列出了表格。所以所以所以所以 可以直接采用查表法对相可以直接采用查表法对相可以直接采用查表法对相可以直接采用查表法对相关系数关系数关系数关系数r r进行显著性检验。进行显著性检验。进行显著性检验。进行显著性检验。具体作法是:具体作法是:具体作法是:具体作法是:先先先先 根根根根 据据据据 自自自自 由由由由 度度度度 n n-2-2 查临界查临界查临界查临界 r r 值值值值 (附附
38、附附 表表表表 8)8),得得得得 ,。若若若若|r r|,P P0.050.05,则相则相则相则相关系数关系数关系数关系数r r不显著,在不显著,在不显著,在不显著,在r r的右上方标记的右上方标记的右上方标记的右上方标记“nsns”;若若若若|r r|,0.010.01P P0.050.05,则相关系数则相关系数则相关系数则相关系数 r r 显著,显著,显著,显著,在在在在r r的右上方标记的右上方标记的右上方标记的右上方标记“*”“*”;若;若;若;若|r r|,P P 0.01 0.01,则相则相则相则相 关关关关 系系系系 数数数数 r r 极显著,在极显著,在极显著,在极显著,在
39、r r 的右上方标记的右上方标记的右上方标记的右上方标记“*”“*”。对于对于【例例8-6】,因为,因为 df=n-2=10-2=8,查附表查附表8得:得:=0.632,=0.765,而,而r=0.8475 ,P0.01,表明绵羊胸围与体重的相关系数极显著。表明绵羊胸围与体重的相关系数极显著。四、相关系数与回归系数的关系四、相关系数与回归系数的关系 从相关系数计算公式的导出可以看到:相关从相关系数计算公式的导出可以看到:相关变量变量x与与y的相关系数的相关系数r是是y对对x的回归系数与的回归系数与x对对y的相关系数的相关系数bxv的几何平均数:的几何平均数:下一张下一张 主主 页页 退退 出出
40、 上一张上一张 表明直线相关分析与回归分析关系十分密表明直线相关分析与回归分析关系十分密切。事实上,它们的研究对象都是呈直线关系切。事实上,它们的研究对象都是呈直线关系的相关变量。直线回归分析将二个相关变量区的相关变量。直线回归分析将二个相关变量区分为自变量和依变量,侧重于寻求它们之间的分为自变量和依变量,侧重于寻求它们之间的联系形式联系形式直线回归方程;直线相关分析不直线回归方程;直线相关分析不区分自变量和依变量,侧重于揭示它们之间的区分自变量和依变量,侧重于揭示它们之间的联系程度和性质联系程度和性质计算出相关系数。两种分计算出相关系数。两种分析所进行的显著性检验都是解决析所进行的显著性检验
41、都是解决y与与x间是否存间是否存在直线关系。因而二者的检验是等价的。即相在直线关系。因而二者的检验是等价的。即相关系数显著关系数显著,回归系数亦显著;回归系数亦显著;相关系数不相关系数不 显著,回归系数也必然不显著。由于利用查表显著,回归系数也必然不显著。由于利用查表法对相关系数进行检验十分简便,因此法对相关系数进行检验十分简便,因此在实际在实际进行直线回归分析时,可用相关系数显著性检进行直线回归分析时,可用相关系数显著性检验代替直线回归关系显著性检验验代替直线回归关系显著性检验,即可先计算,即可先计算出相关系数出相关系数r并对其进行显著性检验,若检验结并对其进行显著性检验,若检验结果果r不显
42、著,则用不着建立直线回归方程;若不显著,则用不着建立直线回归方程;若r显著,再计算回归系数显著,再计算回归系数b、回归截距回归截距a,建立直建立直线回归方程,此时所建立的直线回归方程代表线回归方程,此时所建立的直线回归方程代表的直线关系是真实的,可利用来进行预测和控的直线关系是真实的,可利用来进行预测和控制。制。下一张下一张 主主 页页 退退 出出 上一张上一张 五、应用直线回归与相关的注意事项五、应用直线回归与相关的注意事项 直线回归分析与相关分析在生物科学直线回归分析与相关分析在生物科学研究领域中已得到了广泛的应用,但在实研究领域中已得到了广泛的应用,但在实际工作中却很容易被误用或作出错误
43、的解际工作中却很容易被误用或作出错误的解释。为了正确地应用直线回归分析和相关释。为了正确地应用直线回归分析和相关分析这一工具,必须注意以下几点:分析这一工具,必须注意以下几点:1 1、变量间是否存在相关、变量间是否存在相关、变量间是否存在相关、变量间是否存在相关 直线回归分析和相关分析毕竟是处理变量间关系直线回归分析和相关分析毕竟是处理变量间关系直线回归分析和相关分析毕竟是处理变量间关系直线回归分析和相关分析毕竟是处理变量间关系的数学方法,在将这些方法应用于生物科学研究时要的数学方法,在将这些方法应用于生物科学研究时要的数学方法,在将这些方法应用于生物科学研究时要的数学方法,在将这些方法应用于
44、生物科学研究时要考虑到生物本身的客观实际情况,譬如变量间是否存考虑到生物本身的客观实际情况,譬如变量间是否存考虑到生物本身的客观实际情况,譬如变量间是否存考虑到生物本身的客观实际情况,譬如变量间是否存在直线相关以及在什么条件下会发生直线相关,求出在直线相关以及在什么条件下会发生直线相关,求出在直线相关以及在什么条件下会发生直线相关,求出在直线相关以及在什么条件下会发生直线相关,求出的直线回归方程是否有意义,某性状作为自变量或依的直线回归方程是否有意义,某性状作为自变量或依的直线回归方程是否有意义,某性状作为自变量或依的直线回归方程是否有意义,某性状作为自变量或依变量的确定等等,都必须由生物科学
45、相应的专业知识变量的确定等等,都必须由生物科学相应的专业知识变量的确定等等,都必须由生物科学相应的专业知识变量的确定等等,都必须由生物科学相应的专业知识来决定,并且还要用到生物科学实践中去检验。如果来决定,并且还要用到生物科学实践中去检验。如果来决定,并且还要用到生物科学实践中去检验。如果来决定,并且还要用到生物科学实践中去检验。如果不以一定的生物科学依据为前提,把风马牛不相及的不以一定的生物科学依据为前提,把风马牛不相及的不以一定的生物科学依据为前提,把风马牛不相及的不以一定的生物科学依据为前提,把风马牛不相及的资料随意凑到一块作直线回归分析或相关分析,那将资料随意凑到一块作直线回归分析或相
46、关分析,那将资料随意凑到一块作直线回归分析或相关分析,那将资料随意凑到一块作直线回归分析或相关分析,那将是根本性的错误。是根本性的错误。是根本性的错误。是根本性的错误。下一张下一张 主主 页页 退退 出出 上一张上一张 2 2、其余变量尽量保持一致、其余变量尽量保持一致、其余变量尽量保持一致、其余变量尽量保持一致 由于自然界各种事物间的相互联系和相互制约,由于自然界各种事物间的相互联系和相互制约,由于自然界各种事物间的相互联系和相互制约,由于自然界各种事物间的相互联系和相互制约,一个变量的变化通常会受到许多其它变量的影响,因一个变量的变化通常会受到许多其它变量的影响,因一个变量的变化通常会受到
47、许多其它变量的影响,因一个变量的变化通常会受到许多其它变量的影响,因此,在研究两个变量间关系时,要求其余变量应尽量此,在研究两个变量间关系时,要求其余变量应尽量此,在研究两个变量间关系时,要求其余变量应尽量此,在研究两个变量间关系时,要求其余变量应尽量保持在同一水平,否则,回归分析和相关分析可能会保持在同一水平,否则,回归分析和相关分析可能会保持在同一水平,否则,回归分析和相关分析可能会保持在同一水平,否则,回归分析和相关分析可能会导致完全虚假的结果。例如研究人的身高和胸围之间导致完全虚假的结果。例如研究人的身高和胸围之间导致完全虚假的结果。例如研究人的身高和胸围之间导致完全虚假的结果。例如研
48、究人的身高和胸围之间的关系,如果体重固定,身高越高的人,胸围越小,的关系,如果体重固定,身高越高的人,胸围越小,的关系,如果体重固定,身高越高的人,胸围越小,的关系,如果体重固定,身高越高的人,胸围越小,但当体重在变化时,其结果也就会变化。但当体重在变化时,其结果也就会变化。但当体重在变化时,其结果也就会变化。但当体重在变化时,其结果也就会变化。下一张下一张 主主 页页 退退 出出 上一张上一张 3 3、观测值要尽可能的多、观测值要尽可能的多、观测值要尽可能的多、观测值要尽可能的多 在在在在进进进进行行行行直直直直线线线线回回回回归归归归与与与与相相相相关关关关分分分分析析析析时时时时,两两两
49、两个个个个变变变变量量量量成成成成对对对对观观观观测测测测值值值值应应应应尽尽尽尽可可可可能能能能多多多多一一一一些些些些,这这这这样样样样可可可可提提提提高高高高分分分分析析析析的的的的精精精精确确确确性性性性,一一一一般般般般至至至至少少少少有有有有5 5对对对对以以以以上上上上的的的的观观观观测测测测值值值值。同同同同时时时时变变变变量量量量x x的的的的取取取取值值值值范范范范围围围围要要要要尽尽尽尽可可可可能能能能大大大大一一一一些些些些,这这这这样样样样才才才才容容容容易易易易发发发发现现现现两两两两个个个个变变变变量量量量间间间间的的的的变变变变化化化化关关关关系。系。系。系。4
50、 4、外推要谨慎、外推要谨慎、外推要谨慎、外推要谨慎 直线回归与相关分析一般是在一定取值区间内对直线回归与相关分析一般是在一定取值区间内对直线回归与相关分析一般是在一定取值区间内对直线回归与相关分析一般是在一定取值区间内对两个变量间的关系进行描述,超出这个区间,变量间两个变量间的关系进行描述,超出这个区间,变量间两个变量间的关系进行描述,超出这个区间,变量间两个变量间的关系进行描述,超出这个区间,变量间关系类型可能会发生改变,所以回归预测必须限制在关系类型可能会发生改变,所以回归预测必须限制在关系类型可能会发生改变,所以回归预测必须限制在关系类型可能会发生改变,所以回归预测必须限制在自变量自变