《田间试验和统计方法-第九章.ppt》由会员分享,可在线阅读,更多相关《田间试验和统计方法-第九章.ppt(33页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、田间试验田间试验和和统计方法统计方法第九章第九章 直线回归与相关直线回归与相关第九章第九章 直线回归与相关直线回归与相关第二节 直线回归第一节 回归与相关的概念第三节 直线相关第一节 回归与相关的概念 协变关系与函数关系 函数关系是一种确定性的关系,属于物理学、化学等理论科学的研究内容。协变关系是一种非确定性的关系,即一个变数的取值受到另一变数的影响,两者之间既有关系,但又不存在完全确定的函数关系。例如,作物的产量与产量的构成因素、施肥量和病虫害等的关系。协变关系可分为平行关系和因果关系。第一节 回归与相关的概念回归分析与相关分析 因果关系的变数可用回归来研究,将原因的变数称为自变数,用X表示
2、,一般是没有误差的;结果的变数称为依变数,用Y表示,是有误差的.回归主要是研究当自变数变动时,依变数该如何变动,变动多少。平行关系的变数可用相关来研究,主要研究两个变数关系的程度和性质.但相关分析也可研究变数间的因果关系。第一节 回归与相关的概念变数之间关系的类型可分为直线关系和曲线关系。如果两个变数之间是直线关系可以采用直线回归与相关分析的方法来研究,即本章的内容;多个变数之间是直线关系可以采用多元回归与相关分析的方法来研究,即下一章的内容;变数之间是曲线关系可以采用曲线回归与相关分析的方法来研究,即第十一章的内容。第一节 回归与相关的概念 如何判断两变数之间的关系一方面可根据专业方面的知识
3、来确定,即前人的研究结果,另一方面借助于两个变数成对观测值的散点图。双变数资料的散点图第一节 回归与相关的概念第二节 直线回归直线回归方程的建立直线方程的一般形式直线方程的一般形式:回归截距回归截距回归系数回归系数Y Y 的预测值的预测值 Y Y 的预测值与观测值间的偏差是误差的预测值与观测值间的偏差是误差,即即 最小最小 必须使散点图中的所有点整体上离回归直线最必须使散点图中的所有点整体上离回归直线最近近,即误差达到最小即误差达到最小:任何配合直线任何配合直线回归方程呢回归方程呢?第二节 直线回归直线回归方程的建立分别求Q对a和b的偏导数,并使之为0:现在的任务是要选择合适的a和b,使Q最小
4、.微积分学中提供的最小二乘法为我们解决了这个问题。方法如下:第二节 直线回归将其整理得正规方程组:解方程组得:其中其中 为成对数据的为成对数据的离均差乘积离均差乘积和和,简称,简称乘积和乘积和,记为,记为SPSPxyxy这样就可以得到回归方程.第二节 直线回归XY23456346573.24.156.96.8下面我们来看一个回归方程建立的例子:最后计算出:先计算出一级数据:再计算二级数据:该资料的直线方程为该资料的直线方程为:看看P160P160页的例页的例9.19.1第二节 直线回归直线回归方程的假设测验其中 。如果某总体的两变数 之间有线性关系:从此总体中抽取大小为 的样本,欲用它得到样本
5、模型:,用 估计 ,用 估计 用 估计 。称为总体模型的回归截距,为总体回归系数。N N对对(x,yx,y)的总体的总体n n对对(x,yx,y)的样本的样本对此统计假设有两种测验方法:在欲用样本回归模型对总体回归模型进行估计之 前,必须确证总体中两变数之间确实有线性回归 关系存在,即测验 H0:vs HA:只有在此测验结果为显著时,用 估计 ,用 估计 ,用 估计 才是有意义的。方差分析法 测验法第二节 直线回归方差分析法:利用下图说明方差分析法的基本原理。当自变量为 ,对应的 依变数的实测值为 ,依变数的预测值为 。于是 的离均差 可分解为两个部分:总的差异 估计误差回归引起的偏离第二节
6、直线回归对整个资料所有点的求和得:对于一个点有:两边平方得:可以证明右边的中项为0:第二节 直线回归对整个资料所有点的求和得:对于一个点有:两边平方得:离回归平方和 回归平方和 的总平方和 于是:的总平方和便分解为两个部分:第二节 直线回归 三个平方和的计算公式:总平方和:回归平方和:离回归平方和:或离回归平方和 回归平方和 总平方和第二节 直线回归 将三个平方和填入方差分析表得:计算三个自由度并填入方差分析表:总自由度:离回归自由度:回归自由度:第二节 直线回归 将三个平方和填入方差分析表得:计算回归方差 和离回归方差 :回归方差:离回归方差:计算出 值并对它进行测验:第二节 直线回归上例中
7、:总平方和:回归平方和:离回归平方和:将3个平方和及其它计算结果填入方差分析表得:第二节 直线回归 t 测验法 计算一个t值与t0.05和t0.01进行比较.计算公式是:其中:本例中:本例中:两种测验方法都判定此资料中 与 间有显著的回归关系,结果是完全一致的,可以通过公式来证明。统计测验 H0:vs HA:第二节 直线回归经过测验判断 与 之间有回归关系之后,便可以用样本统计数来对总体参数作估计,并且以一定的概率保证来求出总体参数的置信区间。1.用 来估计 ,置信区间为:其中,2.用 来估计 ,置信区间为:其中,3.用 来估计对应Y平均数 ,置信区间为:其中,4.用 来估计预测值 ,置信区间
8、为:其中,看看P166-169P166-169页页的内容的内容第二节 直线回归第三节 直线相关 变数之间的关系,再看看前面介绍的资料 到底用什么来表示数到底用什么来表示数据资料的相关性呢据资料的相关性呢?第一象限的点 第二象限的点 第三象限的点 第四象限的点第三节 直线相关第三节 直线相关 从下面的三组资料的散点图可以看出,离均差 乘积和 可以反映资料中两个随机变数之间的相互关系。第二组 第三组 第一组第三节 直线相关 乘积和没有考虑到两变数自身变异的影响。乘积和是有单位的量。有时单位在实践中难以解释。例如当 为体高,为体重,它的单位就是cm.g。如何消除计量单位和变异不同的影响呢?可将乘积和
9、除以两个变数平方和的平方根,来表示两个变数之间的关系,该数值定义为相关系数,双变数样本的相关系数用r表示。即 双变数总体的相关系数用表示。第三节 直线相关前述的三组数据的相关系数分别为:第三节 直线相关 相关系数是没有单位的量。相关系数的定义域为-1,1。当相关系数为-1时,两变数为完全负相关;当相关系数为+1时,两变数为完全正相关;当相关系数为0时,两变数为无线性相关;当相关系数在0到+1之间时,两变数为正相关;当相关系数在-1到0之间时,两变数为负相关;如第2组数据的相关系数 =0.9772;所以 与 之间有正的相关关系;如第3组数据的相关系数 =-0.9642;所以 与 之间有负的相关关
10、系;如第1组数据的相关系数 =0.0261;所以 与 之间就几乎没有线性相关关系;第三节 直线相关 如果我们只关心变数间关系的密切程度而不理会正负方向,可以考察相关系数的平方值,相关系数的平方值称为决定系数。第2组中两随机变数的关系比其他两组更密切。第一组数据的决定系数为:第二组数据的决定系数为:第三组数据的决定系数为:第三节 直线相关 在欲用样本相关系数 对总体相关系数 进行估 计之前,必须确证 不为0,即测验 H0:vs HA:测验的公式是:其中:这个 值服从的 分布。对第1组资料 不能推翻 的假设,判断 与 之间没有显著的线性相关关系。第三节 直线相关在欲用样本相关系数 对总体相关系数
11、进行估 计之前,必须确证 不为0,即测验 H0:vs HA:测验的公式是:其中:这个 值服从的 分布。第2组资料,不能接受 的假设,判断 与 之间有极显著的线性相关关系。第三节 直线相关 在欲用样本相关系数 对总体相关系数 进行估 计之前,必须确证 不为0,即测验 H0:vs HA:测验的公式是:其中:这个 值服从的 分布。第3组资料,不能接受 的假设,判断 与 之间有极显著的线性相关关系。计算出的相关系数计算出的相关系数也可直接查也可直接查P376P376的附的附表表1010来判断其显著性来判断其显著性本章提示与作业 本章重点:直线回归方程的建立和假设测验以及相关系数的计算 作业:P190第5和6题