《第八章方差分析.pptx》由会员分享,可在线阅读,更多相关《第八章方差分析.pptx(45页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第一节 方差分析的基本概念第六章中,我们已经介绍了两个样本所属总体平均值的假设检验可用t-test或u-test来检验其差异性但在大多数情况下,我们的试验有3个或3个以上的样本需要进行比较如果这许多样本都只和对照组相比,我们仍然可以使用t-test或u-test进行,但如果需要样本之间两两相比较的话,就不能使用t-test或u-test进行了其理由有以下几个:第1页/共45页1、当有k个样本所属总体的平均值相互两两比较,就需作 次比较,即作 次假设检验例如有10个样本平均值相比较,即需作 次比较,其工作量相当繁琐2、假定每一样本的容量均为n,那么如果我们用t-test来作两两比较时,每一差数的
2、标准误就都只能由2(n-1)来估计,而不能用总自由度k(n-1)来估计总的标准误,这就使得误差估计的精确度受到一定的损失,即我们不能充分使用试验中所有的信息量,这是十分可惜的3、这种两两比较会随着样本组数的增加而加大犯型错误的概率第2页/共45页假定我们要比较5个样本平均数,两两比较就会有 个差数,对这10个差数如果我们都以 进行假设检验,单独对每一差数进行检验时,每一差数获得正确结论的概率就是 但这10个差数在一起进行比较、且都获得正确结论的概率就只有 因此在10个两两比较中至少出现一个错误结论的概率就不再是 ,而是 这么大的犯错率无论如何是不能容忍的这说明,当有多个样本相比较时,如果仍然采
3、用t-test法,就大大地增加了犯型错误的概率第3页/共45页因此此时再用t-test法进行检验就不恰当了如何对 个样本进行假设检验?这就是本章所要讨论的方差分析什么叫方差?方差是对数据(或称资料)变异的度量方差的公式:总体:样本:一般总体方差称方差,样本方差称均方能使变量发生变异的原因很多,这些原因我们都将其称为变异因素或变异来源第4页/共45页方差分析就是发现各类变异因素相对重要性的一种方法方差分析的思路就是:把整个试验(设有k个总体)的样本资料作为一个整体来考虑把整个试验的总变异按照变异的来源分解成不同因素的变异由于方差等于平方和除以自由度,因此总方差分解成各因素的方差,就是将形成总方差
4、的平方和和自由度分解为各因素的平方和和自由度然后对各个因素的方差作出数量上的估计,从而发现各个因素的方差的相对重要程度第5页/共45页从总方差中除去各可控因素所引起的方差后,剩余方差又可以准确地估计试验误差,作为统计假设检验的依据因此,方差分析可以帮助我们抓住试验的主要矛盾和技术关键,发现主要的变异来源,从而抓住主要的、实质性的东西因此,方差分析是一种十分重要的统计工具此外,方差分析还有其他十分重要的用途,例如用于遗传分析,估计参数等方差分析中F分布的复习:第6页/共45页在一个总体中每次抽取两个样本,这两个样本的容量分别为 和 ,每个样本计算其均方 ,不断地抽样,就可以得到一系列的 ,这些F
5、值就形成了一个分布F分布是一簇曲线,每条曲线仅决定于 和 F分布的平均数为 ,其分布范围为本书附表6是不同自由度 、下的右尾概率0.05、0.01的概率值下面我们按不同的数据结构来介绍方差分析方法第7页/共45页第一节 单向分类资料的方差分析及其基本原理所谓单向分类资料是指试验时仅考虑一个因素A,除这一个被考虑的因素A之外,其余因素都控制在同一个水平上这一个因素A被分出若干个等级(又称为组),每一个等级就称为因素A内的一个水平例如我们考察不同蛋白质种类的饲养效果,其余营养物质如能量、矿物质等试验者将其都控制在同一个水平上,试验时仅选择几种需要考察的蛋白质进行比较这里,蛋白质种类就是因素A,所选
6、择的几种蛋白质就是水平:A1、A2、A3、第8页/共45页又如,如果我们仅考察土霉素的疗效,那么其余药物我们都不考虑,仅将土霉素分为几种不同的剂量,那么土霉素就是因素A,不同的土霉素剂量就是水平,如A1:0g、A2:0.1g、A3:0.2g、A4:0.3g、再如,考察不同品种鲤鱼的适应能力,其余条件如水温、饲料、药物、管理等都一样,但鲤鱼的品种不同,鲤鱼的品种就是所考察的因素A,被我们所考察的每一个鲤鱼品种就是水平,如A1:黄河鲤、A2:荷元鲤、A3:锦鲤、A4:建鲤、这样的试验就是单向分组,所得到的结果就是单向分类资料(数据)第9页/共45页因素可以是数量型的,也可以是质量型的,如第一例中所
7、考察的蛋白质种类和第三例中鲤鱼的品种就是质量型的,其划分的水平也是质量型的第二例中土霉素的剂量就是数量型的,其划分的水平也是数量型的单向分类资料又可以分为组内样本容量相等与组内样本容量不等两种情况第10页/共45页一、组内样本容量相等的单向分类资料当每一组(每一个水平)内的试验动物相等,同时试验结束后每一组内的数据资料相等,这就是组内样本容量相等的情况(一)数据结构和数学模型方差分析是建立在一定的线性数学模型基础上的,所谓线性模型就是指每一个观测值都可以分割成若干个线性部分,这是方差分析中平方和、自由度剖分的理论依据第11页/共45页设从一个 中随机抽取一个样本,容量为 ,这一样本中每一观测值
8、 都可以写成:其中,为一随机误差,且如对这一总体施加效应为 的处理,则总体平均值为 ,方差仍为 ,因此,这时,无偏估计 ,无偏估计 第12页/共45页如果将 的总体分成 个亚总体,每一亚总体给于一个效应为 的处理。则每一亚总体的平均值就是:从每一亚总体中抽取样本容量均为 的样本,则我们有 个样本,这 个样本的数据结构为:样本 观测值 和 总和 总平均 1 2 第13页/共45页上表中任一观测值 均具有线性模型:且 ,而(二)平方和及自由度的剖分对于整批资料来讲,可以得到一个总的方差:其中,称为总平方和 称为总自由度第14页/共45页在第1个样本中,我们可得到:在第2个样本中,我们可得到:在第
9、个样本中,我们可得到:在第 个样本中,我们可得到:这 个平方和、自由度相加,就是误差项平方和、自由度:第15页/共45页样本间(或称处理间、组间)的变异就是这 个平均值 的变异,其平方和、自由度就是:由于 估计的是 ,而 估计的是为了正确地进行F检验,必须使这两个均方都估计同一个 因此样本间的平方和应为:这样,我们就有三个均方:总的、组间、组内第16页/共45页现在我们来考察组成三个均方的三个平方和、三个自由度之间的关系先考察第一个样本中每一观测值与总平均值的离差平方和:同理:第2个样本、第 个样本、第 个样本也有类似的等式:第17页/共45页将这 个样本的平方和加起来,就得到:即:总平方和=
10、组内平方和+组间平方和或:总平方和=误差平方和+处理平方和同理:在实际计算时(中间过程请同学们自行推导):其中:第18页/共45页(三)F检验由于这两个均方同时独立地估计着总体方差因此可用 来进行两个均方大小的检验如果对各亚总体各施加的效应 不够大,间的距离就拉不开,组间均方就不会显著大于组内均方,F值就达不到显著水平因此,可用来检验无效假设得到三个平方和、三个自由度后,可用表格的形式列出相应的均方(这就是方差分析表):第19页/共45页方差分析表变异来源处理间误 差总变异这张方差分析表中,总变异的作用不大,因此不需要写出校正值需要注意的是:但第20页/共45页例:设计5种不同的饲料剂型饲养鲫
11、鱼,每种饲料剂型饲喂6网箱鲫鱼(每网箱鱼规格、数量相同),试验结束后,统计每网箱鲫鱼的增重情况,得如下数据,试分析哪种饲料剂型的饲喂效果好?剂型 观测值 23 17 20 20 21 21 18 16 19 18 14 21 24 25 26 25 28 22 27 21 23 19 24 23 16 15 18 16 14 13 第21页/共45页 经计算,得一级数据如下:剂型 122 2500 20.33 3.88 106 1902 17.67 5.86 150 3770 25.00 4.00 137 3165 22.83 7.34 92 1426 15.33 3.06 第22页/共45页
12、设 不全相等画方差分析表,将三个平方和、三个自由度填入表中:方差分析表变异来源不同剂型间 4 360.54 90.135 18.65 2.76 4.18误 差 25 120.83 4.83总的(T)29 481.37在方差分析表中,“不同剂型间”也可以写成“组间”、“处理间”等;“误差”也可以写成“剂型内”等总的MS一般不必写出,因为总MS没有用如果所得F值不显著,就不需要打什么标记第23页/共45页(四)多重比较当所得F值显著、或极显著,表示从整体来讲剂型间存在着极显著的差异,但是不是所有的剂型都有极显著的差异?有没有差异不显著的两种剂型?如何才能知道是哪两种剂型间存在显著或极显著的差异?因
13、此我们必须进行多重比较多重比较的方法很多,但总原则是:首先构造比较用的显著尺度第二步是将两个平均值的差数与相应的尺度相比较凡差值大于尺度的就是显著或极显著第24页/共45页多重比较的方法主要有:PLSD法、Q法、NK法、SSR法等PLSD法就是在方差分析保护下的最小显著差数法,实际上就是t-test法,但它是在方差分析显著的基础上进行的两两比较,它所使用的是方差分析中得到的组内均方,因此其尺度值公式是:其中,为组内自由度下 水平的临界值 为组内均方,为每组样本容量求得 后,将样本平均值两两求得差值,每一差值都与 相比较第25页/共45页Q法,又称固定极差法其中,为 表中组内自由度下与样本组数
14、相对应的 值,求得 值后,将样本平均数两两差数与之比较即可第26页/共45页NK法,又称q法,这一方法是公认比较客观的方法其中,又常写为 为组内均方,为每组样本容量 为组内自由度下不同极差值 下的 值Q法与NK法的共同点是都使用q表,计算公式相同,其不同点是Q法只求一个最大的 值,因此比较时仅有一个标准而NK法则根据平均数距离的远近分别设置不同的 值,因此不同距离的平均数之差的比较标准不同下面我们以上面的这一例题来说明具体的比较方法第27页/共45页第一步,我们求SE值:以误差项自由度查q表,该例题共有5个处理(药物配伍),因此应从2,一直查到5的 和 值将SE值和这些 值相乘,得相应的 值,
15、即:并建表各样本平均数的比较,有好多种方法,这里主要介绍上三角形表示法和字母表示法上三角形表示法:将平均数按从大到小的次序排列,逐个减去最小的平均值,然后减去次小的平均值等等 第28页/共45页 R 2 3 4 5 2.92 3.54 3.91 4.17 3.96 4.55 4.91 5.17 2.62 3.18 3.51 3.74 3.55 4.08 4.40 4.64 -15.33 -17.67 -20.33 -22.83 25.00 9.67*7.33*4.67*2.17 22.83 7.50*5.16*2.50 20.33 5.00*2.66*17.67 2.33 15.33第29页/
16、共45页这里的平均数排序,是按照平均数从大到小的次序排列的,不能按原来的次序排队首先将每个平均数与最小的平均数相比较,其差写在相比较的两个平均数相交的位置上每个差值与LSR表中相应的LSR值相比较:两个平均数的距离如果是2,其差就与R=2的LSR值相比,如果这一差值大于LSR0.05的话,就在其右肩上方打上一个*如果这一差值大于LSR0.01的,就打上*如果这一差值小于LSR0.05的,就什么也不打其余以此类推第30页/共45页字母表示法字母表示法的标注原则是:凡差异不显著的两个平均数就标上相同的字母凡差异显著的两个平均数就标上不同的小写字母凡差异极显著的两个平均数就标上不同的大写字母将平均值
17、按从大到小的次序排列,从上往下比较:凡不显著时就直走凡显著了就拐弯比较的标准还是原来的LSR表第31页/共45页R 2 3 4 5 2.92 3.54 3.91 4.17 3.96 4.55 4.91 5.17 2.62 3.18 3.51 3.74 3.55 4.08 4.40 4.64 0.05 0.01 25.00 a A 22.83 ab AB 20.33 b BC 17.67 c CD 15.33 c D第32页/共45页将比较结果用表或图的形式表示在论文中:表表1 1 不同饲料剂型的饲喂效果不同饲料剂型的饲喂效果剂型 0.80 0.99 0.82 1.11 0.71注:注:上表中凡小写字母相同者表示差异不显著(p0.05);小写字母不同者表示差异显著(p0.05);大写字母不同者表示差异极显著(p0.05);小写字母不同者为差异显著(p0.05);大写字母不同者为差异极显著(p0.01)第42页/共45页用图表示:7 发病 6率 5 4 3 秀山镇 湖桥乡 玉泉镇 丁山镇 图1 某县某县4 4个乡镇草鱼发病率个乡镇草鱼发病率注:同上注:同上 (*)第43页/共45页 待续第44页/共45页感谢您的观看!第45页/共45页