《方差分析与回归分析理.ppt》由会员分享,可在线阅读,更多相关《方差分析与回归分析理.ppt(48页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、西北农林科技大学理学院西北农林科技大学理学院徐徐 钊编制钊编制方差分析方差分析Analysis Of Variance一、方差分析的概念与基本思想一、方差分析的概念与基本思想 1.问题的提出 例题8.1 在饲料养鸡增肥研究中,某饲料研究所提出三种配方:A1以鱼粉为添加料,A2以槐树粉为添加料,A3以苜蓿粉添加料。为比较三种饲料的效果,特选24只相似的雏鸡随机分为三组,每组用一种饲料喂养,60天后测其体重,获得数据如下表饲料A鸡重/gA11073 1009 1060 1001 1002 1012 1009 1028A21107 1092 990 1109 1090 1074 1122 1001A
2、31093 1029 1080 1021 1022 1032 1029 1048比较三种饲料的增重效果是否一致,可以转化为利用样本比较三个总体均值是否相等。直观上看该问题可以用两个总体均值差异显著性检验解决,但细想想还是存在一定问题,因为这样的比较能增大犯错误的概率。为解决这类问题,英国统计学家于1924年提出了解距此类问题的通用方法-方差分析法。2.方差分析的概念因素:影响试验指标变化的原因。水平:因素所划分成不同等级,每个等级称为该因素的一个水平。条件变差:能反映控制因素不同水平对试验指标的作用的量,又称为处理效应或组间效应。随机误差:能反映控制因素以外因素对试验指标作用的量。3.方差分析
3、的基本思想 试验指标的变化可以用指标值的方差反映,导致指标值发生变化的原因有两方面:一是可控因素,二是不可控因素。方差分析就是将指标值的方差分解成条件变差与随机误差,然后依据概率远离比较条件变差与随机误差大小关系,从而决定引起指标值的变化的主要原因。4.方差分析的基本假定不同因素对试验指标值的影响作用是加性效应,即试验指标值的变化是各种因素所起作用的累加;试验指标服从正态分布;试验数据是随机的,并且可控因素不同水平的试验数据方差齐性。二、单因素方差分析的统计模型二、单因素方差分析的统计模型 1.单因素方差分析的数据结构 单因素方差分析的试验数据应具有下列结构形式。因素-水平试验数据和平均 2.
4、单因素方差分析的统计模型该形式称为单因素方差分析的统计模型。在方差分析统计模型下,方差分析要解决的问题转化为下列假设检验问题:为了分析方便,我们往往对单因素方差分析的统计模型进行如下转化。令称其为总均值,而称因素A第i格水平下的主效应。三、单因素方差分析的原理三、单因素方差分析的原理 1.试验数据离差平方和分解离差平方和分解式离差平方和分解式例题8.2 对例题8.1的试验数据进行方差分析。解:H0:饲料种类对鸡的增肥没有影响;H1:有影响。饲料A 鸡重/g-1000TiTi2平方和A1 73 9 60 1 2 2 9 281943763610024A2107 92 -10 109 90 74
5、122 158534222560355A3 93 29 80 21 22 32 29 4835412531620984离差来源平方和自由度均方和均方比F组间9660.0824830.043.59F0.05(2,21)=3.47组内28215.96211343.62总和37876.0423 三、单因素方差分析模型的参数估计三、单因素方差分析模型的参数估计一、相关关系的概念一、相关关系的概念 在现实问题中,处于同一个过程中的一些变量,往往是相互依赖和相互制约的,形成一定的相互关系,这种相互关系大致可分为两种:相关关系与回归关系相关关系与回归关系Correlation and Regression
6、(1 1)确定性关系)确定性关系函数关系;函数关系;(2)非确定性关系)非确定性关系相关关系;相关关系;1.相关关系 相关关系表现为这些变量之间有一定的依赖关,但这种关系并不完全确定,它们之间的关系不能精确地用函数表示出来,这些变量其实是随机变量,或至少有一个是随机变量。2.相关关系举例 例如:在气候、土壤、水利、种子和耕作技术等条件基本相同时,某农作物的亩产量 Y 与施肥量 X 之间有一定的关系,但施肥量相同,亩产量却不一定相同。亩产量是一个随机变量。又如:人的血压Y与年龄X之间有一定的依赖关系,一般来说,年龄越大,血压越高,但年龄相同的两个人的血压不一定相等。血压是一个随机变量。农作物的亩
7、产量与施肥量、血压与年龄之间的这种关系称为相关关系,在这些变量中,施肥量、年龄是可控变量,亩产量、血压是不可控变量。一般在讨论相关关系问题中,可控变量称为自变量,不可控变量称为因变量。因此,统计学上讨论两变量的相关关系时,是设法确定:在给定自变量 的条件下,因变量 的条件数学期望这种关系直观表达出来,一下图所示二、回二、回归归关系的概念关系的概念 1.回归关系回归分析主要包括三方面的内容:回归分析主要包括三方面的内容:1)确定变量间的回归函数形式提供建立有相关关系的变量之间的数学关系式(称为经验公式)的一般方法;2)判别所建立的经验公式是否有效,并从影响随机变量的诸变量中判别哪些变量的影响是显
8、著的,哪些是不显著的;3)利用所得到的经验公式进行预测和控制。3.回归分析与回归分析的内容回归分析就是研究变量间的相关关系,通过对客观事物中变量的大量观测获得数据,去寻找隐藏在数据后面的相关关系,给出他们的表达式回归函数的估计式。一元线性回归模型一元线性回归模型 如果试验的散点图中各点呈直线状,则假设这批数据的数学模型为 设随机变量Y依赖于自变量x,作n次独立试验,得n对观测值:,称这n对观测值为容量为n的一个子样,若把这n对观测值在平面直角坐标系中描点,得到试验的散点图.其中,且相互独立,则 其中其中 同服从于正态分布同服从于正态分布 相互独立,相互独立,因此因此 其中 是与 无关的未知常数
9、。一、一元一、一元线线性回性回归归模型模型 1.一元回归模型 一般地,称如下数学模型为一元线性模型 而 称为回归函数或回归方程。称为回归系数。2.回归函数(方程)的建立 由观测值 确定的回归函数 ,应使得 较小。考虑函数令 问题:确定 ,使得 取得极小值。记表示对 的估计值则变量 对 的经验回归方程为 3.回回归归方程有效性的方程有效性的检验检验 对于任何一组数据对于任何一组数据 ,都可按最,都可按最小二乘法确定一个线性函数,但变量小二乘法确定一个线性函数,但变量 与与 之间是否真之间是否真有近似于线性函数的相关关系呢?尚需进行假设检验。有近似于线性函数的相关关系呢?尚需进行假设检验。假设假设
10、 如果如果 成立,则不能认为成立,则不能认为 与与 有线性相关关系。有线性相关关系。三种检验方法:三种检验方法:F F检验法、检验法、t-t-检验法、检验法、r r检验法。检验法。(一一)回回归归方程有效性的方程有效性的F检验检验法法 记记 总离差平方和总离差平方和,反映观测值与平均值的偏差程度。,反映观测值与平均值的偏差程度。经恒等变形,将经恒等变形,将 分解分解 回归平方和,反映回归值与平均值的偏差,揭示回归平方和,反映回归值与平均值的偏差,揭示变量变量 与与 的线性关系所引起的数据波动。的线性关系所引起的数据波动。剩余平方和,反映观测值与回归值的偏差,揭示剩余平方和,反映观测值与回归值的
11、偏差,揭示试验误差和非线性关系对试验结果所引起的数据波动。试验误差和非线性关系对试验结果所引起的数据波动。如果如果 为真,则为真,则 于是,统计量于是,统计量 对给定的检验水平对给定的检验水平 ,(1 1)当)当 时,时,拒绝拒绝 ,即可认为变量,即可认为变量 与与 有线性相关关系有线性相关关系;(2 2)当)当 时,时,接受接受 ,即可认为变量,即可认为变量 与与 没有线性相关关系没有线性相关关系;记记样本的相关系数样本的相关系数 可反映变量可反映变量 与与 之间的线性相关程度。之间的线性相关程度。因为因为 (二二)回回归归方程有效性的方程有效性的r检验检验法法 越大,变量越大,变量 与与
12、之间的线性相关程度越强。之间的线性相关程度越强。因为因为 (1 1)(2 2)时,时,(3 3)时,时,与与 有线性相关关系;有线性相关关系;与与 无线性相关关系;无线性相关关系;计算计算对给定的检验水平对给定的检验水平 ,查相关系数的临界值表,查相关系数的临界值表 如果如果 ,则拒绝,则拒绝 ,即线性回归方程,即线性回归方程有效;否则,接受有效;否则,接受 ,即线性回归方程无效。,即线性回归方程无效。F F检验与检验与r r检验是一致的:检验是一致的:(三三)回回归归方程有效性的方程有效性的t检验检验法法 统计量统计量 H H0 0成立时,成立时,对给定的检验水平对给定的检验水平 ,H H0
13、 0的拒绝域为的拒绝域为 即当即当 时,变量时,变量 与与 有线性相关关系。有线性相关关系。F F检验与检验与t t检验是一致的:检验是一致的:编号编号123456789脂肪脂肪含量含量%15.417.518.920.021.022.815.817.819.1蛋白蛋白质含质含量量%44.039.241.838.937.438.144.640.739.8试求出试求出 与与 的关系,并判断是否有效。的关系,并判断是否有效。例例8.3 为了研究大豆脂肪含量为了研究大豆脂肪含量 和蛋白质含量和蛋白质含量 的关系,的关系,测定了九种大豆品种籽粒内的脂肪含量和蛋白质含量,测定了九种大豆品种籽粒内的脂肪含量
14、和蛋白质含量,得到如下数据得到如下数据解解 (1 1)描散点图)描散点图 (2 2)建立模型)建立模型 由散点图,设变量由散点图,设变量 与与 为线性相关关系:为线性相关关系:确定回归系数确定回归系数 和和 :编号编号123456789x15.417.518.920.021.022.815.817.819.1168.3y44.039.241.838.937.438.144.640.739.8364.5x2237.16306.25357.21400441519.84249.64316.84364.813192.75y219361536.641747.241513.211398.761451.61
15、1989.161656.491584.0414813.2xy677.6686790.02778785.4868.68704.68724.46760.186775.02所以,所求的回归方程为所以,所求的回归方程为 (3 3)检验回归方程的有效性)检验回归方程的有效性 查相关系数临界值表查相关系数临界值表 因为因为 所以回归方程在所以回归方程在 的检验水平下有统计意义。的检验水平下有统计意义。即可以认为大豆的蛋白质含量与脂肪含量有线性相关性。即可以认为大豆的蛋白质含量与脂肪含量有线性相关性。利用回归方程进行预测利用回归方程进行预测1 1、点预测、点预测 时,时,即为即为 的点预测值。的点预测值。2
16、 2、区间预测、区间预测 统计量统计量 对给定的置信水平对给定的置信水平 ,的预测区间为的预测区间为 续例续例1 1 求大豆脂肪含量为求大豆脂肪含量为18.6%18.6%的条件下蛋白质的条件下蛋白质95%95%的预测区间。的预测区间。解解 由已求得的回归方程由已求得的回归方程 得蛋白质的点预测值为得蛋白质的点预测值为 所以脂肪含量为所以脂肪含量为18.6%18.6%时,蛋白质的时,蛋白质的95%95%的预测区间为的预测区间为 控制则为预测的反问题:已知因变量的取值区间为控制则为预测的反问题:已知因变量的取值区间为 ,确定自变量的取值区间,确定自变量的取值区间 使得使得 利用回归方程进行控制利用
17、回归方程进行控制 一般地,要解出一般地,要解出 和和 很复杂,可作简化求解:很复杂,可作简化求解:当样本容量很大时,当样本容量很大时,则,则 前一节,我们学习了一元线性回归分析问题,在实前一节,我们学习了一元线性回归分析问题,在实际应用中,有些变量之间并不是线性相关关系,但可以际应用中,有些变量之间并不是线性相关关系,但可以经过适当的变换,把非线性回归问题转化为线性回归问经过适当的变换,把非线性回归问题转化为线性回归问题。题。可线性化的一元非线性回归可线性化的一元非线性回归 常见的几种变换形式:常见的几种变换形式:1、双曲线、双曲线 令令 2、幂函数曲线、幂函数曲线 令令 化非线性回归为线性回
18、归化非线性回归为线性回归 变形变形 3、指数函数曲线、指数函数曲线 令令 变形变形 4、负指数函数曲线、负指数函数曲线 令令 化非线性回归为线性回归化非线性回归为线性回归 变形变形 5、对数函数曲线、对数函数曲线 令令 6、S型(型(Logistic)曲线)曲线 令令 化非线性回归为线性回归化非线性回归为线性回归 变形变形 例例8.4 测定某肉鸡的生长过程,每两周记录一次鸡的重测定某肉鸡的生长过程,每两周记录一次鸡的重量,数据如下表量,数据如下表x/周2468101214y/kg0.30.861.732.22.472.672.8由经验知鸡的生长曲线为由经验知鸡的生长曲线为Logistic曲线,
19、且极限生长量曲线,且极限生长量为为k=2.827,试求,试求y对对x的回归曲线方程。的回归曲线方程。解解 由题设可建立鸡重由题设可建立鸡重y与时间与时间x的相关关系为的相关关系为 令令 则有则有 列表计算列表计算 序号序号xyyX2y2xy120.32.13144.5414.262240.860.827160.6843.309361.73-0.456360.208-2.733482.2-1.255641.576-10.0425102.47-1.9341003.741-19.3426122.67-2.8341448.029-34.0037142.8-4.64219621.544-64.982 5613.03-8.16256040.323-123.531所以所以 所以所求曲线方程为所以所求曲线方程为