《单组与配对设计定量资料的统计分析.ppt》由会员分享,可在线阅读,更多相关《单组与配对设计定量资料的统计分析.ppt(62页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、单组与配对设计定量资料的统计分析n去年东北玉米的平均亩产量为去年东北玉米的平均亩产量为382公斤,今年春季公斤,今年春季遭遇了低温天气,但是由于应对措施得当,同时遭遇了低温天气,但是由于应对措施得当,同时采用了一系列新品种,预计平均亩产量高于去年。采用了一系列新品种,预计平均亩产量高于去年。现调查得到现调查得到20亩玉米的亩产量数据如下,试对该亩玉米的亩产量数据如下,试对该数据进行分析。数据进行分析。355.73 360.37 400.40 451.59 456.86 422.41 397.96 427.49 366.74 441.90 343.87 412.92 386.14 411.70
2、422.24 425.98 423.54 441.40 351.69 406.39单组设计的概念单组设计的概念n对来自同一总体的一个随机样本在一个特定条件对来自同一总体的一个随机样本在一个特定条件下观测其定量指标的数值,必须提供标准值或总下观测其定量指标的数值,必须提供标准值或总体平均值体平均值n若定量指标只有若定量指标只有1个,其资料就叫做单组设计一元个,其资料就叫做单组设计一元定量资料;若定量指标有定量资料;若定量指标有m个(个(m1),其资料就),其资料就叫做单组设计叫做单组设计m元定量资料元定量资料 单组设计的特点及应用场合单组设计的特点及应用场合n实验中仅涉及一个实验因素的一个特定水
3、平,受实验中仅涉及一个实验因素的一个特定水平,受试对象未按任何其他实验因素或区组因素进一步试对象未按任何其他实验因素或区组因素进一步被分组被分组 n在定量指标有公认的标准值或理论值的问题中,在定量指标有公认的标准值或理论值的问题中,若对某特定总体中受试对象相应定量指标的取值若对某特定总体中受试对象相应定量指标的取值感兴趣时,可以采用此设计类型进行实验研究感兴趣时,可以采用此设计类型进行实验研究 参数估计参数估计n参数估计是用样本统计量推断总体参数,有点估参数估计是用样本统计量推断总体参数,有点估计和区间估计两种计和区间估计两种n点估计是用相应样本统计量直接作为其总体参数点估计是用相应样本统计量
4、直接作为其总体参数的估计值,如本例中可以算得的估计值,如本例中可以算得20亩玉米亩产量的亩玉米亩产量的样本均数为样本均数为 ,将其作为今年平均亩产量的,将其作为今年平均亩产量的估计值估计值n点估计比较简单,但未考虑抽样误差的大小点估计比较简单,但未考虑抽样误差的大小区间估计区间估计n按预先给定的概率按预先给定的概率1确定包含未知总体参数确定包含未知总体参数的一个范围,该范围叫做参数的置信区间,也称的一个范围,该范围叫做参数的置信区间,也称为可信区间为可信区间n预先给定的概率预先给定的概率1称为置信度或可信度,一称为置信度或可信度,一般取般取95%或或99%n置信区间通常由两个数值即置信限表示,
5、较小者置信区间通常由两个数值即置信限表示,较小者称为置信下限,较大者称为置信上限称为置信下限,较大者称为置信上限 可信区间的含义可信区间的含义n总体均数总体均数95%置信区间的确切含义是指,如果能置信区间的确切含义是指,如果能够进行重复抽样试验,平均有够进行重复抽样试验,平均有95%的置信区间包的置信区间包含了总体均数,而不是总体均数落在该范围内的含了总体均数,而不是总体均数落在该范围内的可能性为可能性为95%n在实际工作中,只能根据一次试验结果估计可信在实际工作中,只能根据一次试验结果估计可信区间,就区间,就认为该区间包含了认为该区间包含了,该结论犯错误的概该结论犯错误的概率率 可信区间估计
6、的优劣取决两个方面:可信区间估计的优劣取决两个方面:n一是可信度一是可信度1,即区间包含,即区间包含 的理论概率大小,的理论概率大小,愈接近愈接近1愈好愈好n二是区间的宽度,区间愈窄愈好二是区间的宽度,区间愈窄愈好n当样本含量为定值时,上述两者互相矛盾。若只当样本含量为定值时,上述两者互相矛盾。若只顾提高可信度,则可信区间会变宽。在可信度确顾提高可信度,则可信区间会变宽。在可信度确定的情况下,增加样本含量可减小区间宽度定的情况下,增加样本含量可减小区间宽度单组设计定量资料总体均数可信区间的计算单组设计定量资料总体均数可信区间的计算n样本均数的标准差称为标准误样本均数的标准差称为标准误n在实际工
7、作中总体标准差在实际工作中总体标准差 常未知,用样本标准差常未知,用样本标准差S来来估计。均数标准误估计值估计。均数标准误估计值反映均数抽样误差的大小反映均数抽样误差的大小当总体标准差当总体标准差 已知或样本含量较大时,按正态分布已知或样本含量较大时,按正态分布n双侧:双侧:n单侧:单侧:或或 或或当总体标准差当总体标准差 未知时,按未知时,按t分布分布n双侧:双侧:n单侧:单侧:或或n自由度自由度 ,可通过可通过t界值表查得界值表查得 n本例中本例中 ,S=34.36,n今年玉米平均亩产量的今年玉米平均亩产量的95%可信区间为可信区间为(389.30,421.44),),说明该区间有说明该区
8、间有95%的可能包含总体均数的可能包含总体均数可信区间与参考值范围的区别可信区间与参考值范围的区别n含义不同含义不同n计算公式不同计算公式不同n用途不同用途不同假设检验假设检验n由样本信息推断总体特征,除参数估计外,还会由样本信息推断总体特征,除参数估计外,还会遇到这样的问题:遇到这样的问题:n某一样本均数是否来自于已知均数总体?两个不某一样本均数是否来自于已知均数总体?两个不同样本均数是否来自均数相同的总体等?同样本均数是否来自均数相同的总体等?n要回答这类问题,更多的是用统计推断的另一方要回答这类问题,更多的是用统计推断的另一方面面 假设检验假设检验 观测到的样本均数与总体均数间或两样本均
9、数间观测到的样本均数与总体均数间或两样本均数间差异的可能原因:差异的可能原因:n总体均数不同;总体均数不同;n总体均数相同,差别由抽样造成。总体均数相同,差别由抽样造成。需要通过统计学假设检验来判断需要通过统计学假设检验来判断假设检验的基本思想假设检验的基本思想n小概率事件在一次试验中不会轻易发生的小概率事件在一次试验中不会轻易发生的原理原理n反证法反证法定量资料假设检验中的定量资料指什么定量资料假设检验中的定量资料指什么 指指结结果果变变量量的的性性质质为为定定量量资资料料,而而原原因因变变量量通通常常仅为定性变量,有时也会有定量变量仅为定性变量,有时也会有定量变量 例例如如:为为了了推推测
10、测教教室室里里男男生生与与女女生生的的平平均均体体重重是是否否相相等等,从从教教室室里里随随机机抽抽取取男男生生和和女女生生各各30人,还测量了他们的身高。人,还测量了他们的身高。男生(体重男生(体重,kg):):60 63 58 67 (身高(身高,cm):):167 173 159 169 女生(体重女生(体重,kg):):62 57 53 61 (身高(身高,cm):):172 163 157 159 参数检验与非参数检验参数检验与非参数检验n参数检验:检验统计量的分布与样本所抽取的总参数检验:检验统计量的分布与样本所抽取的总体分布和总体参数有关,且总体中只有有限个未体分布和总体参数有关
11、,且总体中只有有限个未知参数知参数 如:如:u检验、检验、t检验、检验、F检验检验(方差分析)方差分析)n非参数检验:检验统计量的分布与样本所抽取的非参数检验:检验统计量的分布与样本所抽取的总体分布或总体参数无关总体分布或总体参数无关 如:秩和检验如:秩和检验定量资料假设检验的关键点定量资料假设检验的关键点n其一、检查定量资料是否具备参数检验的其一、检查定量资料是否具备参数检验的前提条件前提条件n其二、正确判定定量资料所对应的实验设其二、正确判定定量资料所对应的实验设计类型计类型单组设计定量资料参数检验的前提条件单组设计定量资料参数检验的前提条件n独立性:根据专业知识判定独立性:根据专业知识判
12、定n正态性:进行正态性检验正态性:进行正态性检验正确判定定量资料所对应的实验设计类型正确判定定量资料所对应的实验设计类型n一定要弄清单因素与多因素的区别一定要弄清单因素与多因素的区别n应熟悉各种标准的多因素设计应熟悉各种标准的多因素设计n不要被多因素非平衡组合实验所迷惑不要被多因素非平衡组合实验所迷惑单组设计定量资料的检验方法单组设计定量资料的检验方法n参数检验:参数检验:t检验、检验、u检验检验n非参数检验:符号秩检验非参数检验:符号秩检验假设检验的步骤假设检验的步骤n第一步,建立假设,确定检验水准第一步,建立假设,确定检验水准 H0:=0=382(今年的平均亩产量与去年相同今年的平均亩产量
13、与去年相同)H1:0(今年的平均亩产量与去年不同今年的平均亩产量与去年不同)=0.05 H0 零假设(又称无效假设、原假设)零假设(又称无效假设、原假设)H1 备择假设备择假设(又称对立假设又称对立假设)检验水准,显著性水准,犯检验水准,显著性水准,犯类错误的概率类错误的概率 双侧检验:双侧检验:H0:=0,H1:0 单侧检验:单侧检验:H0:=0,H1:0 H0:=0,H1:0n根据专业知识,确定用单侧或是双侧检验。没有特殊专业根据专业知识,确定用单侧或是双侧检验。没有特殊专业知识说明的情况下,一般用双侧检验知识说明的情况下,一般用双侧检验n双侧检验较保守和稳妥,单侧检验更容易得出阳性结论双
14、侧检验较保守和稳妥,单侧检验更容易得出阳性结论n第二步,计算检验统计量第二步,计算检验统计量 根据变量和资料类型、设计方案、统计推断的目的、方根据变量和资料类型、设计方案、统计推断的目的、方法的适用条件等选择相应的检验方法和检验统计量法的适用条件等选择相应的检验方法和检验统计量n本例中数据经检验服从正态分布,故可算得本例中数据经检验服从正态分布,故可算得 n第三步,根据求得的第三步,根据求得的t值和自由度去查值和自由度去查t分布表,获分布表,获得对应的概率,也就是得对应的概率,也就是P值值n本例中查表得本例中查表得0.005P0.01,也可以通过统计软,也可以通过统计软件得到件得到P=0.00
15、67nP值的含义是指从值的含义是指从H0规定的总体随机抽样,其检规定的总体随机抽样,其检验统计量等于及大于(或验统计量等于及大于(或/和等于及小于)现有样和等于及小于)现有样本获得的检验统计量值的概率本获得的检验统计量值的概率n第四步,先给出统计学结论,再结合专业知识给第四步,先给出统计学结论,再结合专业知识给出专业结论出专业结论n因因P382,说明今年的平均亩产量高于去,说明今年的平均亩产量高于去年年两类错误两类错误n假设检验是根据样本的信息并依据小概率原理,作出接受假设检验是根据样本的信息并依据小概率原理,作出接受还是拒绝还是拒绝H0的判断。由于样本具有随机性,因而假设检验的判断。由于样本
16、具有随机性,因而假设检验所作出的结论有可能是错误的所作出的结论有可能是错误的.这种错误有两类这种错误有两类:n(1)当原假设当原假设H0为真,观察值却落入拒绝域,而作出了拒绝为真,观察值却落入拒绝域,而作出了拒绝H0的判断,称做第一类错误,又叫弃真错误。犯第一类错的判断,称做第一类错误,又叫弃真错误。犯第一类错误的概率是显著性水平误的概率是显著性水平 n(2)当原假设当原假设H0不真,却作出了接受不真,却作出了接受H0的判断的判断,称做第二类称做第二类错误,又叫取伪错误。犯第二类错误的概率记为错误,又叫取伪错误。犯第二类错误的概率记为 n当样本容量当样本容量n一定时一定时,愈小,愈小,愈大;愈
17、大;愈大,愈大,愈小愈小n若要使犯两类错误的概率都减小若要使犯两类错误的概率都减小,除非增加样本容量除非增加样本容量n1 称检验效能,也称把握度。为当两总体确有差异,称检验效能,也称把握度。为当两总体确有差异,按检验水准按检验水准 所能发现该差异的能力所能发现该差异的能力n拒绝拒绝H0,只可能犯,只可能犯I型错误,不可能犯型错误,不可能犯II型错误;不拒绝型错误;不拒绝H0,只可能犯,只可能犯II型错误,不可能犯型错误,不可能犯I型错误型错误u检验检验n又称又称Z检验,适用于样本量较大(检验,适用于样本量较大(n60)或总体标)或总体标准差准差 已知时已知时 (已知时)已知时)(n较大时)较大
18、时)data a1;input x;cards;355.73 360.37 400.40 451.59 456.86 422.41 397.96 427.49 366.74 441.90343.87 412.92 386.14 411.70 422.24 425.98 423.54 441.40 351.69 406.39;run;proc univariate data=a1 mu0=382 normal cibasic;var x;run;单组设计定量资料的符号秩检验单组设计定量资料的符号秩检验 非参数检验的适用场合:非参数检验的适用场合:n非正态分布或方差不齐的资料非正态分布或方差不齐的
19、资料n等级资料等级资料n一端或两端有不确定数值(如一端或两端有不确定数值(如10.0、0.1等)的等)的资料资料n分布不明的资料分布不明的资料 假定非吸烟男子的牙菌斑指数约为假定非吸烟男子的牙菌斑指数约为1.23,某研究者现测得,某研究者现测得20位吸烟男子的牙菌斑指数分别为:位吸烟男子的牙菌斑指数分别为:1.67,1.48,1.20,1.25,1.28,1.21,0.90,1.20,2.10,1.65,1.88,0.90,1.05,2.56,1.20,0.95,0.87,2.52,2.34,2.69 请问:吸烟男子的牙菌斑指数与请问:吸烟男子的牙菌斑指数与1.23的差别有无统计学意的差别有无
20、统计学意义?义?本例经采用本例经采用W 检验法检验,得检验法检验,得W=0.877721,P=0.0161,因因P 0.10,按双侧检验水准接受,按双侧检验水准接受H0,即,即吸烟男子的牙菌斑指数与吸烟男子的牙菌斑指数与1.23的差别无统计学意义,认为的差别无统计学意义,认为吸烟男子的牙菌斑指数约为吸烟男子的牙菌斑指数约为1.23data a2;data a2;input x;input x;cards;cards;1.67 1.48 1.20 1.25 1.28 1.21 0.90 1.20 2.10 1.651.67 1.48 1.20 1.25 1.28 1.21 0.90 1.20 2
21、.10 1.651.88 0.90 1.05 2.56 1.20 0.95 0.87 2.52 2.34 2.691.88 0.90 1.05 2.56 1.20 0.95 0.87 2.52 2.34 2.69;run;run;proc proc univariate univariate data=a2data=a2 normal mu0=1.23normal mu0=1.23;var x;var x;run;run;配对设计的概念配对设计的概念 与同一个定量指标对应的两组数据成对出现,这些成对数与同一个定量指标对应的两组数据成对出现,这些成对数据有三种可能的来源据有三种可能的来源n其一、
22、来自同一个体,则叫做自身配对设计其一、来自同一个体,则叫做自身配对设计n其二、来自母体相同的两个个体,则叫做同源配对设计其二、来自母体相同的两个个体,则叫做同源配对设计n其三、来自条件接近的两个个体,则叫做条件相近者配对其三、来自条件接近的两个个体,则叫做条件相近者配对设计设计 配对设计的特点及应用场合配对设计的特点及应用场合n实验中仅涉及一个实验因素的两个水平,在这两个水平作实验中仅涉及一个实验因素的两个水平,在这两个水平作用下分别获得一系列成对的数据用下分别获得一系列成对的数据n在自身配对设计中,受试对象未按任何其他实验因素被分在自身配对设计中,受试对象未按任何其他实验因素被分组,组,“配
23、对条件配对条件”是是“自身自身”n在同源配对设计中,受试对象按在同源配对设计中,受试对象按“配对条件配对条件”被分组,被分组,“配配对条件对条件”是是“来源(如窝别)来源(如窝别)”,来源相同的每两个个体被,来源相同的每两个个体被分配到两个处理组中去分配到两个处理组中去n在条件相近者配对设计中,受试对象按在条件相近者配对设计中,受试对象按“配对条件配对条件”被分组,被分组,“配对条件配对条件”是来自受试对象的对观测结果可能有较大影响是来自受试对象的对观测结果可能有较大影响的单个重要非实验因素或多个重要非实验因素的复合结果,的单个重要非实验因素或多个重要非实验因素的复合结果,配对条件相同的每两个
24、个体被随机分配到两个处理组中去配对条件相同的每两个个体被随机分配到两个处理组中去n当实验研究中仅需考察一个两水平的实验因素且有条件选当实验研究中仅需考察一个两水平的实验因素且有条件选用配对设计时,可以选用此设计类型安排实验用配对设计时,可以选用此设计类型安排实验 n配对设计减少了个体差异,更能显示出处理因素的效应配对设计减少了个体差异,更能显示出处理因素的效应配对设计定量资料的检验方法配对设计定量资料的检验方法n参数检验:参数检验:t检验检验n非参数检验:符号秩检验非参数检验:符号秩检验配对设计定量资料参数检验的前提条件配对设计定量资料参数检验的前提条件n独立性独立性n正态性:正态性:每对数据
25、的差值要服从正态分布每对数据的差值要服从正态分布n研究者考察肌激动器对研究者考察肌激动器对类类1 1分类错颌的疗效。选择了分类错颌的疗效。选择了1616例患者,均使用肌激动器治疗,测得治疗前后的有效上颌例患者,均使用肌激动器治疗,测得治疗前后的有效上颌长度长度(单位:单位:mm)mm)数据如表数据如表2 2所示。问:治疗前后的差别是所示。问:治疗前后的差别是否具有统计学意义否具有统计学意义?n经正态性检验,治疗前后的差值服从正态分布,故可以采经正态性检验,治疗前后的差值服从正态分布,故可以采用用t检验分析该资料检验分析该资料表表2 2 使用肌激动器治疗前后患者的有效上颌长度使用肌激动器治疗前后
26、患者的有效上颌长度配对设计定量资料的配对设计定量资料的t检验检验n第一步,建立假设,确定检验水准第一步,建立假设,确定检验水准 H0:d=0(治疗前后的有效上颌长度相同治疗前后的有效上颌长度相同)H1:d0(治疗前后的有效上颌长度不同治疗前后的有效上颌长度不同)=0.05n第二步,计算检验统计量第二步,计算检验统计量 n本例中本例中 =16,n第三步,根据求得的第三步,根据求得的t值和自由度去查值和自由度去查t分布表,获分布表,获得对应的概率,也就是得对应的概率,也就是P值值n本例中查表得本例中查表得0.05P0.05,故不拒绝,故不拒绝H0,治疗前后有效上颌长度,治疗前后有效上颌长度之间的差
27、异没有统计学意义之间的差异没有统计学意义n虽然肌激动器治疗后与治疗前有效上颌长度差值虽然肌激动器治疗后与治疗前有效上颌长度差值的平均值的平均值3.53750,但经假设检验得,但经假设检验得P 0.05,故,故基于目前的样本,尚不能认为肌激动器治疗可以基于目前的样本,尚不能认为肌激动器治疗可以使患者的有效上颌长度增加使患者的有效上颌长度增加data a3;data a3;input x1 x2;input x1 x2;diff=x2-x1;diff=x2-x1;cards;cards;82.2 93.2 82.8 88.5 82.2 93.2 82.8 88.5 80.9 95.1 90.9 9
28、3.880.9 95.1 90.9 93.885.0 95.5 88.0 89.2 85.0 95.5 88.0 89.2 85.3 84.1 88.3 94.6 85.3 84.1 88.3 94.685.3 85.6 83.9 96.7 85.3 85.6 83.9 96.7 93.7 87.9 93.2 93.2 93.7 87.9 93.2 93.283.4 88.1 86.9 90.3 83.4 88.1 86.9 90.3 89.0 92.3 101.2 88.589.0 92.3 101.2 88.5;run;run;proc univariate data=a3 proc un
29、ivariate data=a3 normalnormal;var diff;var diff;run;run;proc ttest data=a3;proc ttest data=a3;paired x2*x1;paired x2*x1;run;run;配对设计定量资料的符号秩检验配对设计定量资料的符号秩检验n将将16只大鼠按照体重相近程度配成只大鼠按照体重相近程度配成8对,然后将每对中的两对,然后将每对中的两只大鼠随机分配到两个饲料组中,用两种饲料喂只大鼠随机分配到两个饲料组中,用两种饲料喂8对大鼠后,对大鼠后,测得其肝中维生素测得其肝中维生素A的含量(的含量(IU/mg),问不同饲料组大
30、鼠),问不同饲料组大鼠肝中维生素肝中维生素A含量的差异是否有统计学意义含量的差异是否有统计学意义data a4;data a4;input x1 x2;input x1 x2;diff=x2-x1 diff=x2-x1;cards;cards;3.55 2.453.55 2.452.00 2.402.00 2.403.00 1.803.00 1.803.95 3.203.95 3.203.80 3.253.80 3.253.75 2.703.75 2.703.45 2.503.45 2.503.05 1.753.05 1.75;run;run;proc univariate proc univariate data=a4 normaldata=a4 normal;var diffvar diff;run;run;n统计学结论:统计学结论:S=-17、P=0.01560.05,故拒绝,故拒绝H0,接受,接受H1,可以认为不同饲料组大鼠肝中维生素,可以认为不同饲料组大鼠肝中维生素A含量的差异具有统计学意义含量的差异具有统计学意义n专业结论:两组差值的均数为专业结论:两组差值的均数为-0.81,因此缺乏维,因此缺乏维E饲料组大鼠肝中维生素饲料组大鼠肝中维生素A的含量要低于正常饲料的含量要低于正常饲料组大鼠组大鼠