《双变量的统计分析之均值比较与检验cqum.pptx》由会员分享,可在线阅读,更多相关《双变量的统计分析之均值比较与检验cqum.pptx(49页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第六章第六章 双变量的统计分析之双变量的统计分析之二 均值比较与检验均值比较与检验 主要内容主要内容MEANS过程过程单一样本单一样本T检验检验(One-Sample T Test)独立样本独立样本T检验检验(Independent-Sample T Test)配对样本配对样本T检验检验(Paired-Sample T Test)方差分析(方差分析(One-Way ANOVA)MEANS过程过程一、一、Means过程过程 该过程实际上更倾向于对样本进行描述,可以对需要比较的各组计算描述指标,包括均值、标准差、总和、观测量数、方差等一系列单变量统计量。二、完全窗口分析二、完全窗口分析 按Anal
2、yzeCompare MeansMeans顺序,打开Means主对话框(如图6-1)。图图61 Means主对话框主对话框该框的变量为因变量,即用于分析的变量。该框的变量为自变量,必须至少有一个变量单击此按钮,进入下一层,返回则按Previous按钮。见图62Statistics框:供选择的统计量Statistics for First Layer复选框:Anova table and eta:进行分组变量的单因方差分析并计算eta 统计量。Test for linearity:产生第一层最后一个变量的R和R2。图图62 Options 对话框对话框Cell Statistics框:选入的描述
3、统计量,默认为均值、样本数、标准差。三、例题分析三、例题分析 某医生测得如下血红蛋白值(g%),用Means过程对其做基本的描述性统计分析。表表5-1血红蛋白值血红蛋白值(g%)编号编号性性别别年年龄龄血红蛋血红蛋白值白值编编号号性性别别年年龄龄血红蛋血红蛋白值白值编编号号性性别别年年龄龄血红蛋血红蛋白值白值111813.661511610.88291167.88211810.57161189.653011812.35311612.56172168.363111613.6542179.871811811.66322169.8752178.99192188.543321810.09621711.
4、35202177.783421812.55711714.562121611.363511816.04811612.402211612.783611813.7892168.052311815.093711711.671011814.03242188.673811710.981121812.83252178.56392168.781211615.502621812.564011611.351321812.252721711.561421710.062811614.671、操作步骤、操作步骤 1)打开数据文件“Means过程过程.sav”。2)按顺序Analyze Compare Means Mea
5、ns打开主对话框。3)单击Option,打开Options对话框,选择统计项目。4)单击OK完成。选hbsex按Next,进入layer 2of 2,选age图图63 在主对话框选送变量在主对话框选送变量图图64 第二层变量框第二层变量框选择统计项目按此按钮复选此2项,第一层次分组选择计算方差分析和线性检验图图65 Options对话框对话框表表61 观测量摘要表观测量摘要表 表61 是观测量摘要表,观测量总个数为40,其中有效值为40个、无效值0。2.结果及分析结果及分析表表62 分组描述统计量分组描述统计量 表62 分三部分:第一、二部分先按性别分组,再按年龄分组计算观测值合计、均数、标准
6、差、方差和个数;第三部分只按年龄分组,最后一行为合计。表表64 按年龄分组的描述统计量按年龄分组的描述统计量表表63 按性别分组的描述性统计量按性别分组的描述性统计量 血红蛋白血红蛋白*性别性别 血红蛋白血红蛋白*年龄年龄 表63、4是将sex和age一起放在layer 1of 1中,分别计算男、女(不作年龄分组)。年龄分三组(不作性别分组)的观测值合计、均数、标准差、方差和个数。表表65 方差分析表方差分析表 表65是方差分析表,共6列:第一列方差来源:组间的、组内的、总的方差;第二列为平方和;第三列为自由度;第四列为均方;第五列为F值;第六列为F统计量的显著值,显著值小于0.05,所以性别
7、对血红蛋白值有显著影响。表表66 eta统计量统计量 表66是eta统计量表,统计量表明因变量和自变量之间联系的强度,0.567的值处于中等水平,2是因变量中不同组间差异所解释的方差比,是组间平方和与总平方和之比,即由64.5256除以 200.787得到。表表67 按年龄分组的方差分析表按年龄分组的方差分析表 表67是将年龄作为第一层自变量得到的方差分析表,Linearity是假设因变量均值是第一层自变量值的线性函数,Deviation from Linearity是不能由线性模型解释的部分。表表68 按年龄分组的按年龄分组的eta统计量统计量表68是将年龄作为第一层自变量得到的eta统计量
8、表,R和R2测度线性拟合的良好度,R是观测值与预测值之间的相关系数。一、一、简介简介 用于检验单个变量的均值与假设检验值(给定的常数)之间是否存在差异。二、完全窗口分析二、完全窗口分析 按AnalyzeCompare MeansOne-Sample T Test顺序,打开One-Sample T Test主对话框(如图5-1)一、单一样本一、单一样本T检验检验图图6-6 One-Sample T Test主对话框主对话框图图6-7 Options对话框对话框Test Variables框:用于框:用于选取需要选取需要分析的变分析的变量量Test Value:输入已输入已知的总知的总体均值,体均
9、值,默认默认0Confidence Interval:输输入置信区间,入置信区间,一般取一般取90、95、99等。等。Missing Values:在检验变量中含在检验变量中含有缺失值的观测将有缺失值的观测将不被计算。不被计算。在任何一个变量在任何一个变量中含有缺失值的观中含有缺失值的观测都将不被计算测都将不被计算三、例题分析三、例题分析 仍以表5-1的资料来说明。已知另一地区16-18岁的少年血红蛋白平均值为11.657g%,检验这一地区16-18岁少年血红蛋白值是否与另一地区的平均值相等。1、操作步骤、操作步骤 1)按AnalyzeCompare MeansOne Sample T Tes
10、t顺序,打开主对话框。(打开数据文件“Means过程过程.sav”。)2)将变量hb选入 Test Variable框。3)在Test Value中输入 11.657,后单击OK。2、结果分析、结果分析表表5-9 单个样本统计量单个样本统计量 表5-9 是血红蛋白值的观测量个数、均值、标准差和均值的标准误等统计量。表表5-10 单个样本检验单个样本检验 从表5-10可看出,t 值为-0.592,自由度39,显著值为0.558,样本均值与检验值的差为-0.2122,该差值95%的置信区间是0.93790.5134。一、一、简介简介 用于检验对于两组来自独立总体的样本,其独立总体的均值或中心位置是
11、否一样。如果两组样本彼此不独立,应使用配对T检验(Paired-Sample T Test)。如果分组不止一个,应使用One-Way ANOVA 过程进行单变量方差分析。如果想比较的变量是分类变量,应使用Crosstabs功能。独立样本T检验还要求总体服从正态分布,如果总体明显不服从正态分布,则应使用非参数检验过程(Nonparametric test)二、完全窗口分析二、完全窗口分析 按AnalyzeCompare MeansIndependent-Sample T Test顺序,打开Independent-Sample T Test主对话框(如图5-10)二、独立样本二、独立样本T检验检验
12、图图510 独立样本独立样本T检验主对话框检验主对话框图图511 Define Groups 主对话框主对话框从源变量框中选取从源变量框中选取要作检验的变量。要作检验的变量。为分组变量,为分组变量,只能有一个。只能有一个。分别输入分组变量的取值条分别输入分组变量的取值条件,如件,如1为男,为男,2为女等。为女等。输入分界点值,如体重输入分界点值,如体重60公公斤等。斤等。在检验变量中含有缺在检验变量中含有缺失值的观测将不被计算。失值的观测将不被计算。在任何一个变量中含在任何一个变量中含有缺失值的观测都将不有缺失值的观测都将不被计算被计算输入置信区输入置信区间,一般取间,一般取90、95、99等
13、。等。图图5-9 Independent-Sample T Test的的Options对话框对话框三、例题分析三、例题分析 仍以表5-1的资料来说明。1、操作步骤 1)按AnalyzeCompare Means Independent-Sample T Test顺序,打开主对话框。打开数据文件“Means过程过程.sav”。2)将变量hb选入 Test Variable框。3)在sex选入Grouping Variable框中作为检验变量。4)打开Define Groups对话框,在Group1输入1,Group2输入2,单击Continue,再单击OK。2、结果分析、结果分析 表5-11 是
14、血红蛋白值的观测量个数、均值、标准差和均值的标准误等统计量。表表5-11 分组统计量分组统计量表表5-12 独立样本独立样本T检验结果检验结果 从表5-12可看出,Equal variances assumed 行是假设方差相等进行的检验,当方差相等时考察这一行的结果;Equal variances not assumed行是假设方差不等进行的检验,当方差不等时考察这一行的结果。在Levenes Test for Equality of Variance列中,显著值为 0.5440.15,可认为方差是相等的,所以应考察第一行的结果。可看出,显著值为 0.0000.05,所以认为均值是不等的。一
15、、一、简介简介 用于检验两个相关的样本是否来自具有相同均值的总体。二、完全窗口分析二、完全窗口分析1、主对话框、主对话框 按AnalyzeCompare MeansPaired-Sample T Test顺序,打开Paired-Sample T Test主对话框(如图5-1)三、配对样本三、配对样本T检验检验从源变量框中选从源变量框中选取成对变量移入。取成对变量移入。所选变量。所选变量。同图同图59图图510 Paired-Sample T Test 对话框对话框 三、例题分析三、例题分析 某单位研究饲料中缺乏维生素E与肝中维生素A含量的关系,将大白鼠按性别、体重等配为8对,每对中两只大白鼠分
16、别喂给正常饲料和维生素E缺乏饲料,一段时期后测定其肝中维生素A含量(mol/L)如下,现在想知道饲料中缺乏维生素E对鼠肝中维生素A含量有无影响。大白鼠配对编号肝中维生素A含量(mol/L)正常饲料组维生素E缺乏组137.225.7220.925.1331.418.8441.433.5539.834.0639.328.3736.126.2831.918.3表表5-12 配对样本配对样本T检验数据检验数据1、操作步骤、操作步骤 1)输入数据并定义变量名:正常饲料组测定值为x1,维生素E缺乏饲料组测定值为x2(数据文件“饲料(配对饲料(配对T检验)检验).sav”。)2)按AnalyzeCompar
17、e MeansPaired-Sample T Test 顺序,打开主对话框。3)单击变量x1,再单击x2,将x1,x2送入Variables框。左下方Current Selections框中出现Variable1、Variable2 4)单击OK。2 2、输出结果及分析、输出结果及分析表表5-13 配对样本配对样本T检验描述统计量检验描述统计量 表5-13可看出,变量x1的均数、标准差、标准误分别为34.750、6.649、2.351,变量x2的均数、标准差、标准误分别为26.238、5.821、2.058。表表5-14 配对样本配对样本T检验相关性检验相关性 表5-14可看出,本例共有8对观
18、测值,相关系数为0.586,相关系数的显著性检验表明显著值为0.127。表表5-15 配对样本配对样本T检验结果检验结果 表5-16说明变量x1、x2两两相减的差值均数、标准差、差值均数的标准误差分别为8.513、5.719、2.022,95可信区间为3.731,13.292。配对检验结果表明t为4.21,自由度为7,显著值为0.004,差别具高度显著性意义,即饲料中缺乏维生素E对鼠肝中维生素A含量确有影响。方差分析简介方差分析简介 方差分析的核心就是方差可分解。这里的方差是通过计算各观测值偏离均值的平方和再除以n-1(样本量减1)而得到的。这样给定n值的情况下,方差就是离差平方和(SS)。方
19、差的分解按表6-1进行。方差分析的目的是检验均数(组间或变量间)差别是否具有统计学意义。即将总变异分解为由随机误差造成的变异(组内SS)与由均数差异造成的变异(组间SS)两个部分。如果后者大于前者,且具有统计学意义,我们将拒绝零假设,即认为总体中均数间存在差异。一、简介一、简介 单因素方差分析是检验由单一因素影响的多组样本某因变量的均值是否有显著差异的问题。如果各组之间有显著差异,说明这个因素(分类变量)对因变量是有显著影响的,因素的不同水平会影响到因变量的取值。二、完全窗口分析二、完全窗口分析 按AnalyzeCompared Means One-Way Anova顺序单击。打开 One-W
20、ay Anova主对话框,如图四、单因素方差分析四、单因素方差分析选入因变量,选入因变量,可有多个变量可有多个变量选入分组变量,必须满足选入分组变量,必须满足只取有限个水平的条件。只取有限个水平的条件。One-Way Anova主对话框主对话框见图见图 6-2见图见图 6-3见图见图 6-4见图见图 62 多项式比较对话框多项式比较对话框进行军制的多项式进行军制的多项式比较,并在其后的比较,并在其后的参数框中选定阶数参数框中选定阶数 。如一阶:。如一阶:Linear,二阶:,二阶:Quadratic,三阶:,三阶:Cubic.最高可达五阶最高可达五阶输入多项式各组均值的系数输入多项式各组均值的
21、系数,输入一个系数单击输入一个系数单击Add按钮。系数按钮。系数进入下面方框进入下面方框.依次输入各组均值的系数。依次输入各组均值的系数。如果多项式中只包括第一与第四组的均值的系数如果多项式中只包括第一与第四组的均值的系数,必须把第二、必须把第二、第三个系数输入为第三个系数输入为0。如果只包括第一与第二组的均值如果只包括第一与第二组的均值,则第三、第四个可不输入。则第三、第四个可不输入。可同时建多个多项式,输入一组后按可同时建多个多项式,输入一组后按Next按钮;如果要修改则按钮;如果要修改则按按Previous按钮,修改后按按钮,修改后按Change按钮,删除按按钮,删除按Remove按钮。
22、按钮。显示每组系显示每组系数的总和。数的总和。63 Post Hoc对话框对话框在此对话框中选择进行多重比较的方法在此对话框中选择进行多重比较的方法1.用用t检验完成组间成对均值的比较,对多重比较错误率不检验完成组间成对均值的比较,对多重比较错误率不 进行调整进行调整2.同上,但通过设置每个检验的误差率来控制整个误差率同上,但通过设置每个检验的误差率来控制整个误差率3.用用t检验完成多重配对比较,为多重比较调整显著值,但检验完成多重配对比较,为多重比较调整显著值,但 比比2的界限要小的界限要小4.对所有可能的组合进行同步进入的均值配对比较对所有可能的组合进行同步进入的均值配对比较5.用用F检验
23、进行多重比较检验进行多重比较6.在在Studentized Range分布下进行多重比较分布下进行多重比较7.用用Studentized Range分布进行所有各组均值间的配对比分布进行所有各组均值间的配对比较较8.用用Studentized Range统计量进行所有组间均值的配对比统计量进行所有组间均值的配对比较较,用所有配对比较集合的误差率作为试验误差率用所有配对比较集合的误差率作为试验误差率9.同同8,但但,其临界值是其临界值是TUKEY和和S-N-K的相应值的平均值的相应值的平均值10.进行配对比较时进行配对比较时,使用的逐步顺序与使用的逐步顺序与Student-Newman-Keul
24、s检验的顺序一样检验的顺序一样,但并不是给每个检验设定一个误但并不是给每个检验设定一个误差差 率率,而是给所有检验的误差率设定一个临界值而是给所有检验的误差率设定一个临界值11.用用Studentized最大系数进行比较检验和范围检验最大系数进行比较检验和范围检验12.用用Studentized最大系数进行配对比较检验最大系数进行配对比较检验13.用用Studentized最大系数进行比较检验最大系数进行比较检验,使用贝叶斯逼近使用贝叶斯逼近.14.用用t检验进行配对比较检验进行配对比较.1.用用t检验进行配对比较,检验进行配对比较,2.用用Studentized 最大系数进行配对比较检验最大
25、系数进行配对比较检验3.同上同上,这种方法有时比较自由这种方法有时比较自由4.用用Studentized Range统计量进行配对比较检验统计量进行配对比较检验规定显著性水平规定显著性水平,默认为默认为0.05图图 64 Options对话框对话框 选择缺失值的处置方式选择缺失值的处置方式:在检验变量中含有缺失值的观测将不被计算在检验变量中含有缺失值的观测将不被计算在任何一个变量中含有缺失值的观测都将不被计算在任何一个变量中含有缺失值的观测都将不被计算规定输出的统计量规定输出的统计量:输出描述统计量输出描述统计量,包括观测量数包括观测量数目目,均值均值,最小值最小值,最大值最大值,标准差标准差
26、,标标准误差准误差,各组中每个因变量的各组中每个因变量的95%的置信区间的置信区间用用Levene检验进行方差一致性检验进行方差一致性检验检验输输出出均均数数分分布布图图三、例题分析三、例题分析 例1 某灯泡厂用四种不同配料方案制成的灯丝,生产了四批灯泡。每批灯泡中随机抽取若干个灯泡测其使用寿命(单位:小时),数据如表6-2,求四种灯丝的灯泡的使用寿命有无显著差异。灯泡灯泡灯丝灯丝12345678甲1600161016501680170017001780乙15001640140017001750丙16401550160016201640160017401800丁1510152015301570
27、16401680表表6-1 灯泡使用寿命灯泡使用寿命 在该例中,设灯泡的使用寿命为因变量,灯丝的配料为因子,四种配料方案为四水平,为单因子四水平的实验。(数据文件:“灯泡使用(单因素方差)灯泡使用(单因素方差).sav)1、不使用选择项操作步骤、不使用选择项操作步骤 1)定义两个变量:Filament变量,取值1、2、3、4分别代表甲、乙、丙、丁,标签为“灯丝”。Hours变量其值为灯泡的使用寿命,标签为“灯泡使用寿命”。2)按AnalyzeCompared Means One-Way Anova顺序打开“单因素分析”主对话框。3)从源变量框中选取hours入Dependent List框中;
28、选取filament变量入Factor框中,单击“OK”运行。4)输出结果及分析表表6-2 灯泡使用寿命的单因素方差分析结果灯泡使用寿命的单因素方差分析结果表6-2说明:第一列:方差来源;第二列:离差平方和;第三列:自由度;第四列:均方;第五列:F值;第六列:显著值,是F统计量的P值。2、使用选择项操作步骤、使用选择项操作步骤1)定义变量和选取变量同1的操作步骤2)在主对话框中单击“Contrast”,在Contrast对话框中选择多项式比较,选择一次多项式比较各组均值,共指定两组多项式系数:3)输出结果及分析2)在主对话框中单击“Contrast”,在Contrast对话框中选择多项式比较,
29、选择一次多项式比较各组均值,共指定两组多项式系数:系数依次为1、-1、-1、1,这是检验灯丝对灯泡使用寿命的影响及甲、丁效应和与乙、丙效应和是否有显著差异系数依次为1、-1、1、-1,这是检验灯丝对灯泡使用寿命的影响及甲、丙效应和与乙、丁效应和是否有显著差异3)打开Post Hoc Multiple Comparisons 对话框,选择多重比较:在Equal Variance Assumed栏中选择 LSD和 Duncan在Equal Variance Not Assumed栏中选择 Tamhanes T24)打开Options对话框,输出统计量选择项。选中Descriptive复选框,输出描
30、述性统计量。选中Homogeneity-of-variance复选框,用Levene检验进行方差一致性检验选中Means plot复选框,输出均数分布图。选中Exclude cases analysis by analysis复选框,不计算在检验变量中含有缺失值的观测。4)单击OK,提交运行输出结果及分析输出结果及分析表表6-3 描述性统计量表描述性统计量表表6-3为描述性统计量表表6-4 方差一致性检验方差一致性检验 表6-4为方差一致性检验结果,其显著值P大于0。05,说明各组的方差在0。05的显著水平上没有显著性差异,即方差具有一致性。表表6-5 单因素方差分析结果单因素方差分析结果 表
31、6-5是单因素方差分析结果。与表6-3比较,增加3行:未加权项、加权线性项、与组间偏差平方和的差。表表6-6 对比系数对比系数表6-6列举了两组多项式的系数。表表6-8 LSD法和法和TamhanesT2法进行均值多重比较结果法进行均值多重比较结果从表可看出,各均值间没有显著差异。表表6-9 Duncan法进行均值多重比较结果法进行均值多重比较结果各列的内容:第一列:列出甲、乙、丙、丁各组。第二列:按Duncan取渐渐增大的Range值进行比较而分的子集。第三列:Duncan值。由于各组样本含量不等,计算均值用的是调和平均数的样本量6.034。最后一行列出了显著值为0.085大于0.05,说明各组方差具有一致性。图图6-5 均值分布图均值分布图 图6-5是均值分布图,以灯丝为横轴,以灯灯泡使用的平均时间为纵轴,从此图上可看出各组均值的分布。演讲完毕,谢谢观看!