第八章 直线回归与相关.doc

上传人:创****公 文档编号:50018806 上传时间:2022-10-12 格式:DOC 页数:21 大小:1.09MB
返回 下载 相关 举报
第八章 直线回归与相关.doc_第1页
第1页 / 共21页
第八章 直线回归与相关.doc_第2页
第2页 / 共21页
点击查看更多>>
资源描述

《第八章 直线回归与相关.doc》由会员分享,可在线阅读,更多相关《第八章 直线回归与相关.doc(21页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第八章 直线回归与相关前面各章我们讨论的问题,都只涉及到一个变量,如体重、日增重或发病率。但是,由于客观事物在发展过程中相互联系、相互影响,因而在畜牧、水产等试验研究中常常要研究两个或两个以上变量间的关系。变量间的关系有两类,一类是变量间存在着完全确定性的关系,可以用精确的数学表达式来表示,如长方形的面积(S)与长(a)和宽(b)的关系可以表达为:S=ab。它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为函数关系。另一类是变量间关系不存在完全的确定性关系,不能用精确的数学公式来表示,如人的身高与体重的关系;仔猪初生重与断奶重的关系;猪瘦

2、肉率与背膘厚度、眼肌面积、胴体长等的关系等等,这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。像这样一类关系在生物界中是大量存在的,统计学中把这些变量间的关系称为相关关系,把存在相关关系的变量称为相关变量。相关变量间的关系一般分为两种,一种是因果关系,即一个变量的变化受另一个或几个变量的影响,如仔猪的生长速度受遗传、营养、饲养管理等因素的影响,子女的身高受父母身高的影响;另一种是平行关系,即两个以上变量之间共同受到另外因素的影响,如人的身高和体重之间的关系,兄弟身高之间的关系等都属于平行关系。变量间的关系及分析方法归纳如下: 函数关系 有精确的数学表达式

3、(确定性的关系) 直线回归分析 一元回归分析 变量间的关系 因果关系 曲线回归分析(回归分析) 多元线性回归分析 多元回归分析 相关关系 多元非线性回归分析 (非确定性的关系) 简单相关分析 直线相关分析 平行关系 复相关分析 (相关分析) 多元相关分析 偏相关分析统计学上采用回归分析(regression analysis)研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量,表示结果的变量称为依变量。研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析;研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。一元回归分析又分为直线回归分析与曲线回归分析两

4、种;多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。回归分析的任务是揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制依变量(结果)。统计学上采用相关分析(correlation analysis)研究呈平行关系的相关变量之间的关系。对两个变量间的直线关系进行相关分析称为简单相关分析(也叫直线相关分析);对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。在相关分析中,变量无自变量和依变量之分。相关分析只能研究两个变量之间相关的程度

5、和性质或一个变量与多个变量之间相关的程度,不能用一个或多个变量去预测、控制另一个变量的变化,这是回归分析与相关分析区别的关键所在。但是二者也不能截然分开,因为由回归分析可以获得相关的一些重要信息,由相关分析也能获得回归的一些重要信息。本章先介绍直线回归与相关分析。第一节 直线回归 一、直线回归方程的建立 图8-1 (x,y)的散点图 对于两个相关变量,一个变量用符号x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的成对观测值,可表示为(x1,y1),(x2,y2),(xn,yn)。为了直观地看出x和y间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图(见图8-1)。 从散

6、点图(图8-1)可以看出:两个变量间关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);两个变量间关系的类型,是直线型还是曲线型;是否有异常观测值的干扰。散点图直观地、定性地表示了两个变量之间的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系定量地表达出来。如果两个相关变量间的关系是直线关系,根据n对观测值所描出的散点图,如图81(c)和图81(d)。如果把变量y与x内在联系的总体直线回归方程记为y=x,由于依变量的实际观测值总是带有随机误差,因而实际观测值yi可表示为: (i=1,2, , n) (81)其中e i为相互独立,且都服从N(0,2)的随机变量。这就是直线

7、回归的数学模型。我们可以根据实际观测值对,以及方差2做出估计。在x,y的直角坐标平面上可以作出无数条直线,而回归直线是指所有直线中最接近散点图中全部散点的直线。设样本直线回归方程为: (8-2)其中,a是的估计值,b是的估计值。回归直线在平面坐标系中的位置取决于a、b的取值,为了使能最好地反应y和x两变量间的数量关系,根据最小二乘法,a、b应使回归估计值与观测值的偏差平方和最小,即:最小。根据微积分学中的极值原理,令 Q对a、b的一阶偏导数等于0,即: 整理得关于a、b的正规方程组:解正规方程组,得: (8-3) (8-4)(8-3)式中的分子是自变量x的离均差与依变量y的离均差的乘积和,简称

8、乘积和,记作,分母是自变量x的离均差平方和,记作。图8-2 直线回归方程的图象a叫做样本回归截距,是回归直线与y轴交点的纵坐标,当x=0时,=a;b叫做样本回归系数,表示x改变一个单位,y平均改变的数量;b的符号反映了x影响y的性质,b的绝对值大小反映了x影响y的程度。a和b均可取正值,也可取负值,因具体资料而异,由图8-2可以看出,a0,表示回归直线在第一象限与y轴相交;a0,表示y随x的增加而增加;br0.01(24),表明相关系数极显著。而r2=0.25,即x变量或y变量的总变异能够通过y变量或x变量以直线回归的关系来估计的比重只占25%,其余的75%的变异无法借助直线回归来估计。*第三

9、节 曲线回归一、 曲线回归分析概述直线关系是两变量间最简单的一种关系。这种关系往往在变量一定的取值范围内成立,取值范围一扩大,散点图就明显偏离直线,此时两个变量间的关系不是直线而是曲线。例如,细菌的繁殖速率与温度关系,畜禽在生长发育过程中各种生理指标与年龄的关系,乳牛的泌乳量与泌乳天数的关系等都属这种类型。可用来表示双变量间关系的曲线种类很多,但许多曲线类型都可以通过变量转换化成直线形式,先利用直线回归的方法配合直线回归方程,然后再还原成曲线回归方程。曲线回归分析(curvilinear regression analysis)的基本任务是通过两个相关变量x与y的实际观测数据建立曲线回归方程,

10、以揭示x与y间的曲线联系的形式。曲线回归分析最困难和首要的工作是确定变量与x间的曲线关系的类型。通常通过两个途径来确定:1、利用生物科学的有关专业知识,根据已知的理论规律和实践经验。例如,细菌数量的增长常具有指数函数的形式: ;幼畜体重的增长常具有“S”型曲线的形状,即Logistic曲线的形式等。2、若没有已知的理论规律和经验可资利用,则可用描点法将实测点在直角坐标纸上描出,观察实测点的分布趋势与哪一类已知的函数曲线最接近,然后再选用该函数关系式来拟合实测点。对于可直线化的曲线函数类型,曲线回归分析的基本过程是:先将x或y进行变量转换,然后对新变量进行直线回归分析建立直线回归方程并进行显著性

11、检验和区间估计,最后将新变量还原为原变量,由新变量的直线回归方程和置信区间得出原变量的曲线回归方程和置信区间。还有一情况是找不到已知的函数曲线较接近实测点的分布趋势,这时可利用多项式回归,通过逐渐增加多项式的高次项来拟合,直到满意为止。该内容将在下一章的多项式回归中讨论。二、能直线化的曲线类型下面是几种常用的能直线化的曲线函数类型及其图型,并将其直线化,供进行曲线回归分析时选用。 1、双曲线函数 图8-5 双曲线函数图形(虚线为渐进线)若令,则可将双曲线函数直线化为:2、幂函数(a0)若对幂函数两端求自然对数,得:并令,则可将幂函数直线化为:图8-6 幂函数(a0)图形 3、指数函数或(a0)

12、(1)若对指数函数(图8-7a)两端求自然对数,得:图8- 7a 指数函数图形并令,则可将其直线化为:(2)若对指数函数(图8-7b)两端取自然对数,得:(b0)(b0)图8-7b 指数函数图形并令,则可将其直线化为:4、对数函数图8-8对数函数图令,则将其直线化为 5、Logistic生长曲线图8-9 Logistic生长曲线图形 若将Logistic生长曲线两端取倒数,得: , 对两端取自然对数,得令,可将其直线化为: 【例8.7】 测定黑龙江雌性鲟鱼体长(cm)和体重(kg),结果如84表所示,试对鲟鱼体重与体长进行回归分析。1、根据实际观测值在直角坐标纸上作散点图,选定曲线类型 此例的

13、散点图见图8-10。从散点图实测点的分布趋势看出它比较接近幂函数曲线图形,因而选用来进行拟合。取,则可将其直线化为:。2、对进行直线回归分析 表8-4 鲟鱼体长与体重数据表序号体长(x)体重(y)170.701.001.849501.16305-0.16306298.254.851.99230.68573.862060.987943112.576.592.05140.81896.343460.246544122.489.012.08810.95478.629090.380915138.4612.342.14131.091313.49604-1.156046148.0015.502.17031.

14、190317.20854-1.708547152.0021.252.18181.327418.966372.283638162.0022.112.20951.344623.92790-1.81970根据表8-4计算得:与的相关系数为:图8-10 鲟鱼体长与体重散点图及回归曲线图当df=n-2=8-2=6时,P0.01,表明y与x间存在极显著的线性关系。又因为:得,y与x的直线回归方程为:3、将变量x、y还原为x、y 即: 4、曲线配合的拟合度 曲线配合的好坏,即所配曲线与实测点吻合的好坏,取决于离回归平方和与y的平方和的比例大小。若这个比例小,说明所配曲线与实测点吻合程度高,反之则低,我们把数

15、量1与这个比值之差定义为曲线回归的相关指数,记为R2,即: (8-29)相关指数R2的大小表示了回归曲线拟合度的高低,或者说表示了曲线回归方程估测的可靠程度的高低。对于【例8.7】先根据回归方程计算出各个回归估计值和,见表8-4,计算出相关指数R2为:表明曲线回归方程的拟合度是比较高的,或者说该曲线回归方程估测的可靠程度比较高。对于同一组实测数据,根据散点图的形状,可用几个相近的曲线进行拟合,同时建立几个曲线回归方程,此时可根据R2的大小和生物学等专业知识,选择既符合生物学规律,拟合度又较高的曲线回归方程来描述这两个变量间的曲线关系。【例8.8】在肉用四川白鹅的补饲料配方研究中,得到如下一组试

16、验结果,试对体重与日龄进行回归分析。 表8-5 肉用四川白鹅不同日龄的体重 (单位:d,g)日龄(x)体重(y)(4316-y)/y=lg(4316-y)/yy-010540.10481.6032141.6726-36.6726721419.16821.2826212.25651.74351433511.88361.0749315.349819.6502215606.70710.8265462.868197.1319287904.46330.6479667.8739122.12614212902.34570.37031287.64052.35955620101.14730.05972144.4592-134.45

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 事务文书

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁