【教学课件】第九章直线回归和相关.ppt-淘文阁

资源描述

《【教学课件】第九章直线回归和相关.ppt》由会员分享，可在线阅读，更多相关《【教学课件】第九章直线回归和相关.ppt（109页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第九章直线回归和相关n第一节回归和相关的概念 n第二节直线回归n第三节直线相关n第四节直线回归与相关的内在关系和应用要点n第五节协方差分析n引言这一章研究的对象：n由一个变数两个或多个变数，因为在实际生产实践和科学实验中所要研究的变数往往不止一个，例如：n研究温度高低和作物发育进度快慢的关系，就有温度和发育进度两个变数；n研究每亩穗数、每穗粒数和每亩产量的关系，就有穗数、粒数和产量三个变数。第一节回归和相关的概念n1.函数关系与统计关系 n2.自变数与依变数 n3.回归分析和相关分析n4.两个变数资料的散点图函数关系有精确的数学表达式（确定性的关系）直线回归分析一元

2、回归分析变量间的关系因果关系曲线回归分析(回归分析）多元回归分析多元线性回归分析统计关系多元非线性回归分析（非确定性的关系）简单相关分析直线相关分析相关关系复相关分析（相关分析）多元相关分析偏相关分析n函数关系是一种确定性的关系，例如圆面积与半径的关系为。其不包含误差的干扰。n统计关系是一种非确定性的关系。例如，作物的产量与施肥量的关系，两类变数受误差的干扰表现为统计关系。n因果关系：两个变数间的关系若具有原因和反应(结果)的性质。n相关关系：呈现一种共同变化的特点，则称这两个变数间存在。n回归分析：计算回归方程为基础的统计分析方法。为Y 依X 的回归方程(regre

3、ssion equation of Y on X)。n相关分析：计算相关系数为基础的统计分析方法。计算表示Y 和X 相关密切程度的统计数，并测验其显著性。n这个统计数在两个变数为直线相关时称为相关系数(correlation coefficient)，记为r；在多元相关时称为复相关系数(multiple correlation)，记作Ry12m；在两个变数曲线相关时称为相关指数(correlation index)，记作R。n一般规则：n当两个变数中Y 含有试验误差而X 不含试验误差时着重进行回归分析；而当Y 和X 均含有试验误差时则着重去进行相关分析。n4.两个变数资料的散点图n对具有统计关

4、系的两个变数的资料进行初步考察的简便而有效的方法，是将这两个变数的n对观察值(x1，y1)、(x2，y2)、(xn，yn)分别以坐标点的形式标记于同一直角坐标平面上，获得散点图(scatter diagram)。n根据散点图可初步判定双变数X 和Y 间的关系，包括：X 和Y 相关的性质(正或负)和密切程度；X 和Y 的关系是直线型的还是非直线型的；是否有一些特殊的点表示着其他因素的干扰等。n例如图9.1是水稻方面的3幅散点图，图9.1A是单株的生物产量(X)和稻谷产量(Y)，图9.1B是每平方米土地上的总颖花数(X)和结实率(Y)，图9.1C是最高叶面积指数(X)和每亩稻谷产量(Y)。从中可以

5、看出：图9.1A和9.1B都是直线型的，但方向相反；前者Y 随X 的增大而增大，表示两个变数的关系是正的，后者Y 随X 的增大而减小，表示关系是负的。图9.1A的各个点几乎都落在一直线上，图9.1B则较为分散；因此，图9.1A中X 和Y 相关的密切程度必高于图9.1B。图9.1C中X 和Y 的关系是非直线型的；大约在x(67)时，Y 随X 的增大而增大，而当x(67)时，Y 随X 的增大而减小。x，生物产量(g)水稻单株生物产量与稻谷产量的散点图 x，每m2颖花数(万)水稻每m2颖花数和结实率的散点图x，最高叶面积指数水稻最高叶面积指数和亩产量的散点图第二节直线回归n一、直线回归方程n二、

6、直线回归的假设测验和区间估计n三、直线回归的矩阵求解一、直线回归方程(一)直线回归方程式 (91)n回归截距(regression intercept）：a是x=0时的值，即回归直线在y 轴上的截距。n回归系数(regression coefficient）：b是x 每增加一个单位数时，平均地将要增加(b0时)或减少(b0时)的单位数。时，分别对a和b 求偏导数并令其为0，可得正规方程组（normal equations）：得 (92)(93)(94)将(92)代入(91)可得：y a0,b0,b0 a0 x 直线回归方程的图象n由(94)可看到：当x以离均差(x-)为单位时，回归直线的位置仅

7、决定于和b；当将坐标轴平移到以(，)为原点时，回归直线的走向仅决定于b，所以一般又称b为回归斜率(regression slope）。n(二)直线回归方程的计算n例9.1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年测定3月下旬至4月中旬旬平均温度累积值(x，旬度)和水稻一代三化螟盛发期(y，以5月10日为0)的关系，得结果于表9.1。试计算其直线回归方程。n首先由表9.1算得回归分析所必须的6个一级数据(即由观察值直接算得的数据)：x累积温y盛发期35.534.131.740.336.840.231.739.244.212169273139-1 表9.1 累积温和一代三化螟

8、盛发期的关系 n=9 =35.5+34.1+44.2=333.7 =35.52+34.12+44.22=12517.49 =12+16+(-1)=70=122+162+(-1)2=794 =(35.512)+(34.116)+44.2(-1)=2436.4然后，由一级数据算得5个二级数据：SSx=12517.49-(333.7)2/9=144.6356=794-(70)2/9=249.55562436.4-(333.770)/9=-159.0444333.7/9=37.077870/9=7.7778*SSy=SP=因而有：b=-159.0444/144.6356=-1.0996天/(旬度)a=

9、7.7778-(-1.099637.0778)=48.5485(天)n故得表9.1资料的回归方程为：n上述方程中回归系数和回归截距的意义为：当3月下旬至4月中旬的积温(x)每提高1旬度时，一代三化螟的盛发期平均将提早1.1天；若积温为0，则一代三化螟的盛发期将在6月2728日(x=0时，=48.5；因y是以5月10日为0，故48.5为6月2728日）。n由于x变数的实测区间为31.7，44.2，当x31.7或44.2时，y的变化是否还符合=x的规律，观察数据中未曾得到任何信息。xn所以，在应用=x于预测时，需限定x的区间为31.7，44.2；如要在x31.7或44.2的区间外延，则必须有新的依

10、据。n(三)直线回归方程的图示n直线回归图包括回归直线的图象和散点图，它可以醒目地表示x 和y 的数量关系。n方法：制作直线回归图时，首先以x为横坐标，以y为纵坐标构建直角坐标系(纵、横坐标皆需标明名称和单位)；然后取x坐标上的一个小值x1代入回归方程得，取一个大值x2代入回归方程得，连接坐标点(x1，)和(x2，)即成一条回归直线。如例9.1资料，以x1=31.7代入回归方程得 =13.69；n以x2=44.2代入回归方程得 =-0.05。在图9.3上确定(31.7，13.69)和(44.2，-0.05)这两个点，再连接之，即为 =x的直线图象。注意：此直线必通过点(，)，它可作为制图是

11、否正确的核对。最后，将实测的各对(xi，yi)数值也用坐标点标于图9.3上。x，3月下旬至4月中旬旬平均温度累积值图旬平均温度累积值和一代三化螟盛发期的关系n图9.3的回归直线是9个观察坐标点的代表，它不仅表示了例9.1资料的基本趋势，也便于预测。如某年3月下旬至4月中旬的积温为40旬度，则在图9.3上可查到一代三化螟盛发期的点估计值在5月1415日，这和将x=40代入原方程得到 =48.5485-(1.099640)=4.6是一致的。因为回归直线是综合9年结果而得出的一般趋势，所以其代表性比任何一个实际的坐标点都好。当然，这种估计仍然有随机误差，下文再作讨论。n(四)直线回归的估计标准误n

12、Q 就是误差的一种度量，称为离回归平方和(sum of squares due to deviation from regression)或剩余平方和。n建立回归方程时用了a 和b 两个统计数，故Q 的自由度 n 得 =SSy-b(SP)=SSy-b2(SSx)=y2-ay-bxy(95)(96A)(96B)(96C)(96D)n(五)直线回归的数学模型和基本假定n直线回归模型中，Y 总体的每一个值由以下三部分组成：回归截距，回归系数，Y变数的随机误差。n总体直线回归的数学模型：n N(0，)。相应的样本线性组成为：(97)(98)n回归分析时的假定：n(1)Y 变数是随机变数，而X 变

13、数则是没有误差的固定变数，至少和Y 变数比较起来X 的误差小到可以忽略。n(2)在任一X 上都存在着一个Y 总体(可称为条件总体)，它是作正态分布的，其平均数是X 的线性函数：(99)的样本估计值，与X 的关系就是线性回归方程(91)。n(3)所有的Y 总体都具有共同的方差，而直线回归总体具有。试验所得的一组观察值(xi，yi)只是中的一个随机样本。n(4)随机误差相互独立，并作正态分布，具有。n二、直线回归的假设测验和区间估计n(一)直线回归的假设测验 1回归关系的假设测验（1）t 测验 H0：=0 对 HA：(910)n遵循的t分布，故由t 值即可知道样本回归系数b来自 =

14、0总体的概率大小n（2）F 测验当仅以表示y资料时（不考虑x 的影响），y变数具有平方和SSy 和自由度当以表示y资料时(考虑x的影响)，则SSy将分解成两个部分，即：(911)n将记作U n回归和离回归的方差比遵循的F分布因为得2两个回归系数比较时的假设测验 H0：对 HA：(914)(915)n例9.5 测定两玉米品种叶片长宽乘积(x)和实际叶面积(y)的关系，得表9.4结果，试测验两回归系数间是否有显著差异。表9.4 玉米叶片长宽乘积和叶面积关系的计算结果由表9.4可得:品种nSSxSSySPbQ七叶白2213518246585139424830.697181420石榴子1

15、810708225168637436520.69447 420 n 这一结果是完全不显著的，所以应接受H0：即认为叶片长宽乘积每增大1cm2，叶面积平均要增大的单位数在七叶白和石榴子两品种上是一致的，其共同值为:n（二）直线回归的区间估计 1直线回归的抽样误差n在直线回归总体中抽取若干个样本时，由于，各样本的a、b 值都有误差。因此，由 =a+bx给出的点估计的精确性，决定于和a、b的误差大小。比较科学的方法应是考虑到误差的大小和坐标点的离散程度，给出一个区间估计，即给出对其总体的、等的置信区间。2回归截距的置信区间 n由(92)，样本回归截距a ，而和b的误差方差分别为：。故根据误

16、差合成原理，a的标准误为：n由是遵循的t 分布的。总体回归截距有95可靠度的置信区间为：L1=a-t 0.05 ，L2=a+t0.05 (917)(918)3回归系数的置信区间由(911)可推得总体回归系数的95%可靠度的置信区间为：L1=b-t 0.05 ，L2=b+t 0.05 4条件总体平均数的置信区间 n由，故的标准误为：条件总体平均数的95%置信区间为：L1=-t 0.05 ，L2=+t0.05 (921)(920)(919)n5条件总体观察值Y Y 的预测区间将(94)代入(98)yi=+ei，(922)n保证概率为0.95的Y 或y 的预测区间为：L1=-t

17、0.05 ，L2=+t0.05 (923)6置信区间和预测区间的图示 n首先取若干个等距的x 值(x 取值愈密，作图愈准确），算得与其相应的、和、的值；然后再由和算得各x上的L1和L2，并标于图上；最后将各个L1和L2分别连成曲线即可。例9.10 试制作例9.1资料的y估计值包括和y在内有95%可靠度的置信区间图。表9.6 例9.1资料的置信区间和y y的预测区间的计算(2)(3)(4)(6)(7)(8)，(1)x的95置信区间计算y的95预测区间计算(5)L1，L23032343637384042444615.613.411.29.07.96.84.62.40.2-2.02.211.

18、751.371.131.091.121.351.722.172.665.24.13.22.72.62.63.24.15.16.310.4,9.3,8.0,6.3,5.3,4.2,1.4,-1.7,-4.9,-8.3,20.817.514.411.710.59.47.86.55.34.33.952.723.533.463.433.463.533.693.924.219.38.88.38.28.18.28.38.79.39.96.3,4.6,2.9,0.8,-0.2,-1.4,-3.7,-6.3,-9.1,-11.9,24.922.219.517.216.015.012.911.19.57.9 一

19、代三化螟盛发期估计及其 95%置信限 n画出的图像，依次标出n(x，L1)和(x，L2)坐标点，n再连接各(x，L1)得线，n连接各(x，L2)得线。连n接各(x，L2)得线。和 n 所夹的区间即包括 n在内有95可靠度的置信区间。n称(x，)的连线，(x，)n的连线。其所夹的区间即n为y的95的预测区间或预测带。3月下至4月中旬平均温度累积值例9.1资料的y y 估计值及其95%置信带n三、直线回归的矩阵求解n回归分析的计算程序可概括为：n算得6个一级数据，即n、和 n由一级数据算得5个二级数据，即SSx、SSy、SP、和；n由二级数据计算 U 和 Q 并进行 F 测验，显著

20、后进一步算出 b 和 a，获得直线回归方程。n(一)直线回归方程的矩阵解法n一个直线回归的样本线性方程(98)可改写为：nn 对观察值可按(924)写成n 个等式：n若定义：(925)(924)nX X为系数矩阵或结构矩阵。则(925)可写成矩阵形式：n即：Y=Xb+e (926)n要使(926)中的b b成为回归统计数，必须满足为最小。n故由n解得：n即 n因此 b=(927)n其中：为()的逆矩阵。的元素用cij表示，在统计上又称cij为高斯乘数(Gauss multiplier)。n(二)直线回归假设测验的矩阵解法n用矩阵方法可以求得b向量的方差为：n因而b的显著性测验可表示为：n这一

21、t 值的自由度为。bi=b0时即为回归截距的测验；bi=b1时即为回归系数的测验。(930)(929)n 在计算(930)中离回归的标准误时要用到Q，其矩阵计算式为：(931)n总平方和SSy 及回归平方和U 的矩阵计算式为：（932）n（932）中的1为由n个1组成的列向量：第三节直线相关n一、相关系数和决定系数n二、相关系数的假设测验一、相关系数和决定系数n（一）相关系数n(X，Y)总体没有相关，则落在象限、的点是均匀分散的，因而正负相消，=0。n当(X，Y)总体呈正相关时，落在象限、的点一定比落在象限、的多，故一定为正；同时落在象限、的点所占的比率愈大，此正值也愈大。n当(X，Y

22、)总体呈负相关时，则落在象限、的点一定比落在象限、的为多，故一定为负；且落在象限、的点所占的比率愈大，此负值的绝对值也愈大。n 的值可用来度量两个变数直线相关的相关程度和性质。但是，X 和Y 的变异程度、所取单位及N的大小都会影响其大小。n这些因素的影响是可以消去的。方法就是将离均差转换成以各自的标准差为单位，使成为标准化离差，再以N 除之。n可定义双变数总体的相关系数为：n （933）n(933)的已与两个变数的变异程度、单位和N大小都没有关系，是一个不带单位的纯数，因而可用来比较不同双变数总体的相关程度和性质。n相关系数是两个变数标准化离差的乘积之和的平均数。n样本的相关系数 r (93

23、4)n因为：在回归分析时分成了两个部分：一部分是离回归平方和Q ，另一部分是回归平方和U =(SP)2/SSx。n因此，又可有定义：nr 的取值区间是-1，1。双变数的相关程度决定于|r|，|r|越接近于1，相关越密切；越接近于0，越可能无相关。nr 的显著与否还和自由度有关，越大，受抽样误差的影响越小，r 达到显著水平的值就较小。正的r 值表示正相关，负的r 值表示负相关。而相关系数r的正或负和回归系数b是保持一致。(二)决定系数 n决定系数(determination coefficient)定义为由x不同而引起的y 的平方和占y总平方和SSy=的比率；也可定义为由y不同而引起的x 的平

24、方和占x总平方和SSx=的比率，其值为：（935）n所以决定系数即相关系数r 的平方值。n决定系数和相关系数的区别在于：除掉|r|=1和0的情况外，r2总是小于|r|。这就可以防止对相关系数所表示的相关程度作夸张的解释。例如，r=0.5，只是说明由x 的不同而引起的y 变异(或由y 的不同而引起的x 变异)平方和仅占y 总变异(或 x 总变异)n平方和的r2=0.25，即25%，而不是50%。n r 是可正可负的，而r2则一律取正值，其取值区间为0，1。因此，在相关分析由r 的正或负表示相关的性质，由r2 的大小表示相关的程度。n(三)相关系数和决定系数的计算二、相关系数的假设测验n(一)的

25、假设测验n测验一个样本相关系数 r 所来自的总体相关系数是否为0，所作的假设为H0：对HA：0。n在的总体中抽样，r的分布随样本容量n的不同而不同。nr的抽样误差：(936)n当时：n 或 (937)n此 t 值遵循的t分布，由之可测验 H0：。n对于同一资料，线性回归的显著性等价于线性相关的显著性。n将(937)移项，即可得到自由度和显著水平一定时的临界 r 值：n(二)的假设测验n测验一个实得的相关系数r与某一指定的或理论的相关系数C是否有显著差异，其统计假设为H0：对HA：C。=（938）n在 0时，r 的抽样分布具有很大的偏态(图9.6)且随n 和的取值而异，类似(937)的转换

26、已不再能由t分布逼近。n可将r转换为z值：(939)图9.6 不同时的r r 的抽样分布(n n=8)backnz近似于正态分布，具有平均数和标准差：n n和 (940)(941)n由 (942)n可测验H0：。n(三)的假设测验n测验两个样本相关系数r1和r2所分别来自的总体相关系数和是否相等，因此有H0：对HA：。由于 r 转换成 z 后才近似正态分布，故这一测验也必须经由(939)和(940)的 z 转换进行。n两个 z 值的差数标准误为：(943)n由 (944)n可测验H0：，亦即测验H0：。n在H0：=被接受时，应将r1和r2合并为一个r来n表示整个资料的相关情况。合并的方法是将两

27、样本的平方和和乘积和分别相加后再代入(934)。n 即第四节直线回归与相关的内在关系和应用要点n一、直线回归与相关的内在关系n二、直线回归和相关的应用要点n一、直线回归与相关的内在关系n回归与相关间的内在联系：n(1)相关系数是标准化的回归系数n回归系数b是有单位的，但若对b作消去单位的标准化处理，即对b中x和y的离均差以各自的标准差sx和sy为单位，则有：所以，有时把相关系数称为标准回归系数。n(2)相关系数r是y依x的回归系数by/x和x依y的回归系数bx/y的几何平均数。n若对同一资料计算x 依y 的回归，则有bx/y=SP/SSy，因此(3)线性回归方程也可用相关系数表示因为所以由

28、(94)表示的回归方程可改写成：(4)线性回归和离回归的平方和也可用相关系数表示。n二、直线回归和相关的应用要点n(1)回归和相关分析要有学科专业知识作指导。n(2)要严格控制研究对象(X 和Y)以外的有关因素，即要在 X 和Y 的变化过程中尽量使其它因素保持稳定一致。n(3)直线回归和相关分析结果不显著，并不意味着X和Y 没有关系，而只说明X 和Y 没有显著的线性关系，它并不能排除两变数间存在曲线关系的可能性。n(4)一个显著的r 或b 并不代表X 和Y 的关系就一定n是线性的，因为它并不排斥能够更好地描述X 和Y 的各种曲线的存在。n(5)在X 和Y 的一定区间内，用线性关系作近似描述是允

29、许的，它的精确度至少要比仅用描述y变数有显著提高。n(6)一个显著的相关或回归并不一定具有实践上的预测意义。n(7)为了提高回归和相关分析的准确性，两个变数的样本容量n(观察值对数)要尽可能大一些，至少应有5对以上。第五节协方差分析n一、协方差分析的意义和功用n二、单向分组资料的协方差分析n三、两向分组资料的协方差分析n一、协方差分析的意义和功用n(一)协方差分析的意义n协方差(covariance)是两个变数的互变异数。对于一个具有N 对(X，Y)的有限总体，其定义为：(945)n对于由n 对(x，y)组成的样本，则可定义：n样本协方差是乘积和与自由度的商，即平均的乘积和。一般又称为均积(

30、mean products)或协方，记作MP，它是总体协方差 cov 的估值。n协方差分析(analysis of covariance)是将回归分析和方差分析综合起来的一种统计方法。(946)n(二)协方差分析的功用n1.当（x，y）为因果关系时，可利用 y 依 x 的回归系数矫正y变数的处理平均数，提高精确度。n2.当（x，y）为相关关系时，可通过估计不同变异来源的总体方差和协方差，作出相应的相关分析。n二、单向分组资料的协方差分析n(一)资料模式与线性组成设有k 组回归样本，每组各有n 对观察值，则该资料共有kn 对数据，其模式如表9.8。组别观察值总和平均1x11x12x13x1ny

31、11y12y13y1n2x21x22x23x2ny21y22y23y2nkn单向分组资料协方差分析的样本线性组成为：(947A)n将(947A)移项得：(947B)n和 (947C)n(二)乘积和和自由度的分解 n上式中和的 i=1，2，3，k。n其中：（949）（948）n如果各组的n不等，分别为n1、n2、nk，其和为，则 n其相应自由度为、。(950)n(三)回归关系的协方差分析n协方差分析解决问题的步骤如下：n(1)列出处理间、处理内和总变异的DF、SSx、SSy和SP。n(2)测验x 和y 是否存在直线回归关系。n(3)测验矫正平均数间的差异显著性。n(4)如果所得F 为不显著，表

32、明间无显著差异；如果F 为显著，则必须算出各个，进行多重比较，作出相应推断。n(四)相关关系资料的协方差分析n相关关系资料的协方差分析主要讨论两个互有联系的总体的相关问题。n例9.16 为研究小麦品种经济性状的数量遗传，随机抽取90个品种，在田间每品种皆种成4个小区(每小区1行)，共904=360个小区，完全随机排列。得到小穗数(x)和百粒重(y)的方差和协方差分析结果于表9.13。表9.13 90个小麦品种的小穗数(x x)和百粒重(y y)的方差分析与协方差分析+4变异来源DFx的方差分析y的方差分析(x，y)的协方差分析SSMSEMSSSMSEMSSPMPEMP品种间 89597.996

33、.719087.82510.9868-127.426-1.4322品种内270108.810.4030 8.31610.03089.9610.0369总变异359706.8096.1412-117.501n表9.13中，x和y两者的方差分析按第六章第三节的方法作出；(x，y)的SP 则由(949)求出。将各SP除以相应的DF，即得平均的乘积和，即MP。期望协方EMP的分量和随机模型的EMS 相同，仅是以协方差符号cov代替。这是处理(品种)效应为随机型的资料，目的不是研究特定的品种，而是研究抽出这些品种的小麦总体，因而需估计有关总体参数。n由表9.13中的MS 和EMS 的关系可得：由表9

34、.13中MP 和EMP 的关系得：因此，小穗数和百粒重的环境相关系数re为：品种(基因型)相关系数rg为：以上re所对应的自由度是k(n-1)-1=269，为极显著；rg的假设测验比较复杂，其简单近似是具自由度k-2=88，亦为极显著。根据以上方差和协方差分量，还能估计出小穗数和百粒重的表型相关rp可估计为：n三、两向分组资料的协方差分析 n(一)资料模式与线性组成若资料有m类k组，则mk对观察值按两向分类，其模式如表9.14。表9.14 两向分组的两个变数的符号n样本线性组成为：(954A)n移项后可得：(954B)n和 (954C)n(二)乘积和和自由度的分解n 表9.14的总SP

35、可分解为类间、组间和误差三部分，其值为：（955）n（三）协方差分析n两向分组资料的协方差分析和单向分组资料并无原则上的不同，只是多了一个方向的变异来源。n例9.17 表9.15是研究施肥期和施肥量对杂交水稻南优3号结实率影响的部分结果，共14个处理，2个区组，随机区组设计。由于在试验过程中发现单位面积上的颖花数对结实率似有明显的回归关系，因此将颖花数(x，万/m2)和结实率(y，%)一起测定。该试验的处理效应为固定型，故按因果关系资料回归模型作协方差分析。表9.15 南优3号的颖花数（x x）和结实率（y y）资料处理区组TiIIIxyxyxy12345678910111213144.

36、594.093.943.903.453.483.393.143.344.124.123.843.963.0358656466717171726961636764754.324.114.113.573.793.383.033.243.044.764.753.604.503.01 61 62 64 69 67 72 74 69 69 54 56 62 60 718.918.208.057.477.246.866.426.386.388.888.877.448.466.041191271281351381431451411381151191291241464.4554.1004.0253.7353.

37、6203.4303.2103.1903.1904.4404.4353.7204.2303.02059.563.564.067.569.071.572.570.569.057.559.564.562.073.064.7666.0365.9567.2267.8468.8768.1866.0264.5362.6464.6064.1065.5367.22Tr52.3993753.21910105.60 1847n 首先用两向分组资料的通常方法算得表9.15资料的各项平方和于表9.16，乘积和则由以下各式算出：SPT=(4.5958)+(4.0965)+(3.0171)=-73.60SPR=SPt=SP

38、e=-73.60-(-0.79)-(-66.37)=-6.44 表9.16 表9.15资料的平方和和乘积和变异来源SSxSSySP总变异7.7344802.96-73.60区组间0.024026.03-0.79处理间6.8732694.46-66.37误差0.837282.47-6.44 有了上述结果，就可先对x 和y 变数各作一方差分析，见表9.17。表9.17 表9.15资料的方差分析变异来源DFx 变数y 变数F0.01SSMSFSSMSF区组间 10.02400.0240126.0326.03 4.10处理间136.87320.52888.2

39、0*694.46 53.42 8.42*3.90误差130.83720.064582.476.34 表9.17的F 测验说明：不同处理的颖花数和结实率都有极显著的差异。所以更需要进行协方差分析，以明了各处理结实率的不同到底是处理的直接效应，还是通过颖花数的变化而产生的间接效应。由表9.16和9.17结果，可作成协方差分析表于表9.18。表9.18 表9.15资料的协方差分析变异来源DFSSxSSySPb离回归的分析DFQMSFF0.05处理+误差267.7104776.93-72.812589.38处理136.8732694.46-66.37误差130.8372 82.47-6.44-

40、7.69231232.932.74矫正平均数间的差异1356.454.34 1.58 2.66n在表9.18的变异来源栏中，没有写上区组和总变异这是由于在田间试验中，区组只是局部控制的一种手段，在分析结果时只需剔除它的影响，而不需研究其效应。又由于总变异中是包括区组变异的，所以也予剔除，而以“处理+误差”代替。这里的“处理+误差”和单向分组资料的总变异同义，参见表9.11。n表 9.18中误差项的回归为极显著，F=(82.47-32.93)/2.74=18.08。由于误差项的回归系数和各处理的特点无关，故b=-7.6923对各处理的进行矫正。-7.6923的

41、意义为：颖花数x每增加1(万/m2)，n结实率y 将下降7.6923。n本试验的=105.60/28=3.7714(万/m2),一并代入(951)，即有方程：+7.6923（-3.7714）上式可用来将各处理的结实率都矫正到颖花数为每平方米3.7714万个时的结实率。如处理1为：=59.5+7.6923(4.455-3.7714)=64.76（%）处理2为：=63.5+7.6923(4.100-3.7714)=66.03（%）处理14为：=73.0+7.6923(3.020-3.7714)=67.22（%）这样算得的值列于表9.15末列。它们已和单位面积上的颖花数多少无关，故在相互比较时就

42、更为真实。但是，在未算出这些值之前，已可从表9.18上获得有关它们的重要信息。将表9.18离回归分析部分“处理+误差”项的自由度和平方和，分别减去误差项的自由度和平方和，即为这些值的自由度和平方和，其F=1.58，是不显著的。由此说明各处理的矫正平均数之间并无显著差异，因而不需要再对各矫正平均数间的差数作假设测验如果间的F 测验是显著的，则需应用(952)计算差数标准误sD，进行矫正平均数间的比较。综上所述，这个肥料试验的基本信息是：1不同的施肥期和施肥量对南优3号单位面积上的颖花数和结实率都有极显著的影响。2结实率的高低主要是由颖花数的不同造成的；即不同的施肥期和施肥量造成了单位面积上颖花数的差异，进而引起结实率的差异。如果将各处理的颖花数都矫正到同一水平，则不同处理的结实率没有显著差异。3在本试验中，不同的施肥期和施肥量对南优3号的结实率只有间接的效应，没有直接效应。

展开阅读全文