《医学统计学.pps》由会员分享,可在线阅读,更多相关《医学统计学.pps(112页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 预防医学预防医学第六章第六章 数值变量资料的统计推断数值变量资料的统计推断预防医学教研室预防医学教研室1 第六章第六章 数值变量资料的统计推断数值变量资料的统计推断 统计推断的主要内容:统计推断的主要内容:总体均数的可信区间估计总体均数的可信区间估计 假设检验(显著性检验)假设检验(显著性检验)2第一节第一节 均数的抽样误差均数的抽样误差 和总体均数的估计和总体均数的估计 一、均数的抽样误差和标准误一、均数的抽样误差和标准误 抽样研究的目是用样本统计量推断总抽样研究的目是用样本统计量推断总体参数,在统计学上称为统计推断。体参数,在统计学上称为统计推断。3 由于总体观测单位间存在个体差异,由于
2、总体观测单位间存在个体差异,随机抽样所得的样本均数与总体均数、随机抽样所得的样本均数与总体均数、样本均数与样本均数之间存在差异。由样本均数与样本均数之间存在差异。由于抽样引起的差异称为于抽样引起的差异称为均数的抽样误差均数的抽样误差。4X1X2X3X45 例如例如:某大学有:某大学有2000020000名同质学生,名同质学生,空腹血糖值空腹血糖值(mmolmmol/L/L)4.6554.655。某医生某医生对这些学生作次抽样调查,每次抽对这些学生作次抽样调查,每次抽100100个个学生,平均空腹血糖值学生,平均空腹血糖值X1 1、X2 2、XN N。6n n=100=100,4.6234.62
3、3n n=100=100,4.4124.412n n=100=100,4.6614.661n n=100=100,5.0225.022n n=100=100,4.6824.682n n=100=100,4.0894.089n n=100=100,4.1934.193 n nN N=100=100,N N4.7544.754 单位单位(mmolmmol/L/L)7 这些均数不相等,但其分布有一定这些均数不相等,但其分布有一定规律:大多数集中在总体均数附近,离规律:大多数集中在总体均数附近,离总体均数越远,样本均数的个数越少。总体均数越远,样本均数的个数越少。8 如果把如果把132132(N N)
4、个个样本均数样本均数看着看着132132(N N)个个“变量值变量值”,可求其标准差,可求其标准差,即即样本均数的标准差样本均数的标准差,它说明样本均数,它说明样本均数间的变异程度,即样本均数的抽样误差。间的变异程度,即样本均数的抽样误差。9 样本均数的标准差称为标准误样本均数的标准差称为标准误(standard error),standard error),用用X X表示。标准误表示。标准误越大,样本均数的抽样误差越大。标准越大,样本均数的抽样误差越大。标准误可按下式计算:误可按下式计算:10 总体标准差总体标准差()()往往不可知往往不可知,所以所以用样本标准差用样本标准差(s)(s)代替
5、,得总体标准误的代替,得总体标准误的估计值估计值样本标准误样本标准误s sx:11 例例8.18.1的资料:的资料:n n132132s s0.4010.401。求其标准误。求其标准误。12 标准误的应用标准误的应用 表示样本均数与总体均数的抽样表示样本均数与总体均数的抽样误差。误差。估计总体均数的可信区间。估计总体均数的可信区间。进行假设检验。进行假设检验。13 标准误与标准差的区别标准误与标准差的区别 标准差描述样本中标准差描述样本中个体值个体值间的变间的变异;标准误描述异;标准误描述样本均数样本均数的抽样误差。的抽样误差。当样本量足够大时,标准差趋向稳当样本量足够大时,标准差趋向稳定;而
6、标准误则随样本量的增大而减小,定;而标准误则随样本量的增大而减小,甚至趋于零甚至趋于零。14 二、二、t t分布分布 将任何一个正态分布将任何一个正态分布N N(,2 2)变换成变换成u u分布分布N N(0 0,1 1),),变换方法是将变换方法是将变量值变量值X X变换为变换为u u(标准正态离差)标准正态离差):15 在在研究样本均数的抽样分布时,把研究样本均数的抽样分布时,把样本均数样本均数X X看作看作“变量值变量值”,其与,其与的离的离差用标准差(标准误)为单位表示:差用标准差(标准误)为单位表示:16 实际工作中,常用实际工作中,常用s sx x估计估计X X,为与为与u u变换
7、区别,称为变换区别,称为t t变换变换。17 从从一个正态总体中抽取一系列一个正态总体中抽取一系列n n相等相等的样本,每一个样本可计算一个的样本,每一个样本可计算一个t t值,因值,因此可计算一系列此可计算一系列t t值,值,t t值的频数分布称为值的频数分布称为t t分布。分布。18 如从正态总体中抽如从正态总体中抽132132个个样本样本,计算,计算132132个个均数均数,计算,计算132132个个t t值值,列,列t t值频数表值频数表(如同(如同132132个血糖值列频数表)。个血糖值列频数表)。19 t t分布的特征分布的特征 以以0 0为中心,左右对称。为中心,左右对称。t t
8、分布曲线形态与分布曲线形态与n n(确切说与自确切说与自由度由度v v)大小有关。大小有关。20 v v越小越小,t t分布曲线与标准正态曲线分布曲线与标准正态曲线出入越大(曲线越扁平);出入越大(曲线越扁平);v v越大越大,t t分布曲线越接近标准正态分布曲线越接近标准正态曲线;曲线;当当v v时时,t t分布曲线为标准正态分布曲线为标准正态曲线。曲线。2122u u曲线下面积为曲线下面积为9595双侧双侧界值界值是?是?0 0 2.52.5常量常量1.961.96 记作记作u u0.050.05-1.96-1.961.961.9623t t分布曲线下面积为分布曲线下面积为9595双侧双侧
9、界值界值是?是?0 0 2.52.5-t-t0.050.05t t0.050.05随机样本算得随机样本算得t t值,值,有有9595个个t t满足:满足:-t-t0.050.05,v vtttt0.050.05,v v随随v v变化变化 记作记作t t0.050.05,v v24 t t0.050.05,v v的意义的意义 从一个正态总体中随机抽样,获得从一个正态总体中随机抽样,获得|t|t|t|t0.050.05,v v 的概率的概率P P0.050.05,其对应其对应t t分分布曲线下的尾部面积为布曲线下的尾部面积为0.050.05;25 t t0.010.01,v v的意义的意义 从一个
10、正态总体中随机抽样,获得从一个正态总体中随机抽样,获得|t|t|t|t0.010.01,v v的概率的概率P P0.010.01,其对应其对应t t分分布曲线下的尾部面积为布曲线下的尾部面积为0.010.01。26 根据自由度(根据自由度(v v)大小与大小与t t分布曲线分布曲线下面积的关系,推算出下面积的关系,推算出t t界值表(界值表(P178P178)。)。因因t t分布是以分布是以0 0为中心的对称分布,故只为中心的对称分布,故只列正值,如算得列正值,如算得t t值为负值,可取其绝对值为负值,可取其绝对值查表。值查表。27 三、总体均数的置信区间估计三、总体均数的置信区间估计 点值估
11、计点值估计:X X 区间估计区间估计(ICIC):):按一定的概率按一定的概率 (1 1)估计总体均数所在范围(可信区估计总体均数所在范围(可信区间)。间)。1 1称为置信度,常用称为置信度,常用9595或或9999。28 例例 某年级学生某年级学生N N600600人,预防医人,预防医学成绩学成绩(不知)。抽样不知)。抽样n n100100,x x 75.0075.00。估计估计?。?。75.00 75.00 可能性可能性70.0070.0080.0080.00 可能性可能性 点估计,点估计,区间估计区间估计65.0065.0085.0085.00 可能性可能性29 总体均数总体均数9595
12、可信区间可信区间:X X t t0.050.05,v vS Sx x 总体均数总体均数9999可信区间可信区间:X X t t0.010.01,v vS Sx x 30 当样本含量较大时当样本含量较大时(n n100100)总体均数总体均数9595可信区间可信区间 X X 1.961.96S Sx x 总体均数总体均数9999可信区间可信区间 X X 2.582.58S Sx x 31 当当x x已知时已知时 总体均数总体均数9595可信区间可信区间 X X 1.961.96x x 总体均数总体均数9999可信区间可信区间 X X 2.582.58x x 32 可信区间意义可信区间意义 用样本
13、均数估计总体均数,总体均用样本均数估计总体均数,总体均数在该范围的可能性(概率)是数在该范围的可能性(概率)是9595或或9999。33 例例 随机抽查某地随机抽查某地1010名男孩出生体重,名男孩出生体重,得得 X X3.21kg3.21kg,s sx x0.149kg0.149kg,估计该地估计该地男孩出生体重均数的男孩出生体重均数的9595可信区间。可信区间。v v10101 19 9 查查t t界值表界值表t t0.050.05,v v2.2622.262 X X t t0.050.05,v vS Sx x3.21 3.21 2.2620.1492.2620.149 2.872.873
14、.55(kg)3.55(kg)34 例例 随机抽查随机抽查120120名名2121岁女大学生体重,岁女大学生体重,得得X X48.83kg48.83kg,s sx x0.32kg0.32kg,估计估计2121岁女岁女大学生体重均数的大学生体重均数的9595可信区间。可信区间。X X 1 1.9696S Sx x48.8348.83 1 1.96960.320.32 48.2048.2049.46(kg)49.46(kg)35 第二节第二节 假设检验的假设检验的 基本思想和基本步骤基本思想和基本步骤 假设检验(假设检验(hypothesis test)hypothesis test)也称显著也称
15、显著性检验(性检验(significance test)significance test)。由于存在抽由于存在抽样误差,从总体中随机抽样所得的样本均数样误差,从总体中随机抽样所得的样本均数与总体均数之间存在误差,从同一总体中抽与总体均数之间存在误差,从同一总体中抽取的样本均数之间也有误差。取的样本均数之间也有误差。36 完全由抽样误差引起,比较的均数完全由抽样误差引起,比较的均数来源于同一总体;来源于同一总体;的原因的原因假设检验计算假设检验计算 的概率判断。的概率判断。来自于不同的总体,均数之间存在本来自于不同的总体,均数之间存在本质差别。质差别。370X差异完全由抽样误差引起差异完全由抽
16、样误差引起380X差异完全由抽样误差引起差异完全由抽样误差引起390X来自于不同的总体来自于不同的总体400X来自于不同的总体来自于不同的总体41 (一一)假设检验的基本思想假设检验的基本思想 无效假设无效假设:样本均数总体均数样本均数总体均数 样本均数样本均数1 1样本均数样本均数2 2 假设检验假设检验,确定假设成立的概率确定假设成立的概率P P 小概率事件小概率事件(P0.05)(P0.05)在一次观察中可在一次观察中可认为是不会发生认为是不会发生,而拒绝而拒绝“假设假设”。42 (二二)假设检验的基本步骤假设检验的基本步骤 1 1、假设假设 无效假设无效假设H H0 0:0 0 1 1
17、2 2 备择假设备择假设H H1 1:0 0 1 12 2注意注意:假设针对总体。假设针对总体。43 专业知识确定专业知识确定:单侧还是双侧检验单侧还是双侧检验。甲均数与乙均数相比甲均数与乙均数相比:可能高可能高,也可能低也可能低 双侧检验双侧检验 肯定不会低(或高)肯定不会低(或高)单侧检验单侧检验H H1 1:0 0 0 0 1 1 2 2 1 1 2 244 确定检验水准(显著性水准)确定检验水准(显著性水准)一般一般0.05,发生第一类错误的概发生第一类错误的概率,即率,即H H0 0实际成立,但拒绝实际成立,但拒绝H H0 0的概率的概率。45 2 2、选定统计方法和计算统计量、选定
18、统计方法和计算统计量 3 3、确定、确定P P值,作出统计推断值,作出统计推断 用计算的统计量与相应的界值比较,用计算的统计量与相应的界值比较,确定确定P P值。值。46 P P值是指在值是指在H H0 0所规定的总体中作随机所规定的总体中作随机抽样,获得等于及大于(或等于及小于)抽样,获得等于及大于(或等于及小于)现有统计量的概率。现有统计量的概率。P,拒绝拒绝H H0 0,接受接受H H1 1。P,不拒绝不拒绝H H0 0。47 假设检验作出的结论不是绝对正确,假设检验作出的结论不是绝对正确,而是具有概率性。而是具有概率性。拒绝拒绝H H0 0可能犯第一类错误,不拒绝可能犯第一类错误,不拒
19、绝H H0 0又可能犯第二类错误。又可能犯第二类错误。48 第一类错误第一类错误:H H0 0为真,而拒绝它。为真,而拒绝它。其概率用其概率用表示,理论上表示,理论上100100次抽样中发次抽样中发生这样的错误有次(生这样的错误有次(0.050.05)。)。49 第二类错误:第二类错误:H H0 0不真,而接受它。不真,而接受它。其概率用其概率用表示表示,样本含量确定时,样本含量确定时,愈小,愈小,愈大;反之,愈大;反之,愈大,愈大,愈小。愈小。称为检验效能或把握度,即两总称为检验效能或把握度,即两总体确有差别,按体确有差别,按水准能发现它们有差水准能发现它们有差别的能力。别的能力。50 第三
20、节第三节 t t检验和检验和u u检验检验 u u检验适用条件检验适用条件:已知已知,x x与与比较比较 两大样本(两大样本(n n1 1与与n n2 2 50 50)均数比较均数比较 上述两种情况都要求:资料服从对上述两种情况都要求:资料服从对称或正态分布。称或正态分布。51 t t检验适用条件检验适用条件:未知未知 两样本较小(两样本较小(n n1 1与与n n2 2 5050)两样本均数比较时,两样本的总体方差两样本均数比较时,两样本的总体方差相等(即方差齐)相等(即方差齐)上述都要求:资料服从对称或正态分布。上述都要求:资料服从对称或正态分布。52 一、一、样本均数与总体均数的比较样本
21、均数与总体均数的比较 样本均数与已知总体均数(一般为样本均数与已知总体均数(一般为理论值、标准值理论值、标准值或或大量观测所得的大量观测所得的稳定值稳定值)的比较,目的是推断样本所代)的比较,目的是推断样本所代表的总体与已知总体是否相等。公式为:表的总体与已知总体是否相等。公式为:53 例例9.3 9.3 已知一般无肝肾疾病的健康已知一般无肝肾疾病的健康人群尿素氮均值为人群尿素氮均值为4.882(mmol/L4.882(mmol/L),),1616名名脂肪肝患者尿素氮脂肪肝患者尿素氮(mmolmmol/L/L)测定值为测定值为 5.745.74、5.755.75、4.264.26、6.246.
22、24、5.365.36、8.688.68、6.476.47、5.245.24、4.134.13、11.8011.80、5.575.57、5.615.61、4.374.37、4.594.59、5.185.18、6.966.96。问脂肪肝患者。问脂肪肝患者尿素氮测定值的均值是否高于的健康人?尿素氮测定值的均值是否高于的健康人?54 假设假设:H0:0 H1:0 0.05 0.05 单侧检验单侧检验 计算计算t t值值 x x5.997 s5.997 s1.920 n1.920 n161655t0.05,v 0.05 不拒绝不拒绝H0 无无 t0.05,v 0.05 拒绝拒绝H0,接受接受H1 有有
23、 t0.01,v 0.01 拒绝拒绝H0,接受接受H1 有高度有高度t值、值、P值与值与统计结论的关系(统计结论的关系(0.050.05)t值值 P值值 结论结论 差异的统计学意义差异的统计学意义56 确定确定P P值值 自由度自由度v vn n1 116161 11515查单侧查单侧t t值表值表t0.05,15 1.7531.753 t0.01,15 2.6022.602t0.01,15 t t t0.05,15 0.01 0.01 P P0.050.0557 统计推断结论统计推断结论 P P0.050.05,在,在0.050.05水准上拒绝水准上拒绝H H0 0,接受接受H H1 1 ,
24、差异有统计学意义差异有统计学意义。可认为。可认为脂肪肝患者尿素氮测定值的均值高于的脂肪肝患者尿素氮测定值的均值高于的健康人。健康人。结论包括结论包括:统计结论统计结论和专业结论。和专业结论。58 二、二、配对计量资料的比较配对计量资料的比较 同源配对同源配对:同一对象处理前后的数:同一对象处理前后的数据,同一样品用两种方法测定的结果。据,同一样品用两种方法测定的结果。异源配对异源配对:将实验对象配成对子,对:将实验对象配成对子,对每一对子中的两个实验对象给予两种不同的每一对子中的两个实验对象给予两种不同的处理,以推断两种处理的效果有无差别。处理,以推断两种处理的效果有无差别。591 10 62
25、 13 93 7 4:n 8 5病人号病人号 治疗前治疗前 治疗后治疗后某药某药治疗前后的血沉(治疗前后的血沉(mm/h)同源配对同源配对601 10 62 13 93 7 4:n 8 5样品号样品号 甲甲 乙乙同一批样品用两方法测定的结果同一批样品用两方法测定的结果同源配对同源配对611 A1a1 9 62 A2a2 8 33 A3a3 5 1:n Anan 10 5 编号编号 甲甲 乙乙 甲指标甲指标 乙指标乙指标异源配对异源配对620为为差数的总体均数差数的总体均数d为成对为成对数据之差(差数)的均数数据之差(差数)的均数Sd为为差数均差数均数的数的标准误标准误Sd为差数均数的标准差为差
26、数均数的标准差63 例例9.4 9.4 应用某药治疗应用某药治疗9 9例高胆固醇血例高胆固醇血脂患者,治疗前后血浆胆固醇如下表。脂患者,治疗前后血浆胆固醇如下表。问该药是否对患者治疗前后血浆胆固醇问该药是否对患者治疗前后血浆胆固醇变化有影响?变化有影响?64病人号病人号 治疗前治疗前 治疗后治疗后 d d21 10.10 6.69 3.41 11.62812 6.78 5.40 1.38 1.90443 13.22 12.67 0.55 0.30254 7.78 6.56 1.22 1.48845 7.47 5.65 1.82 3.31246 6.11 5.26 0.85 0.72257 6.
27、02 5.43 0.59 0.34818 8.08 6.26 1.82 3.31249 7.56 5.06 2.50 6.2500 d14.14 d229.2688某新药治疗前后某新药治疗前后血浆胆固醇血浆胆固醇(mmolmmol/L/L)变化情况变化情况65 假设假设:H0:d 0 H1:d 0 0.050.05(单侧检验单侧检验)计算计算t t值值66 确定确定P P值值 自由度自由度v vn n1 19 91 18 8 查查t t值表单侧值表单侧t0.01,8 2.8962.896 t tt0.01,8 P P 0.010.0167 统计推断结论统计推断结论 P P0.01 0.01,在
28、,在0.050.05水准上拒绝水准上拒绝H H0 0,接受接受H H1 1 ,差异有高度统计学意义。可差异有高度统计学意义。可认为该药有降低血浆胆固醇作用认为该药有降低血浆胆固醇作用。68 三、三、两样本均数的比较两样本均数的比较 1 1、两个大样本均数的比较两个大样本均数的比较 当两个大样本含量较大(均当两个大样本含量较大(均5050)时,时,可用可用u u检验。检验。69 例例9.5 9.5 某某地地随机抽取正常男性随机抽取正常男性264264名,测得空腹血中胆固醇名,测得空腹血中胆固醇(mmolmmol/L/L)的均的均数为数为4.4044.404,标准差为,标准差为1.1691.169
29、;随机抽取;随机抽取正常女性正常女性160160名,测得空腹血中胆固醇的名,测得空腹血中胆固醇的均数为均数为4.2884.288,标准差为,标准差为1.1061.106。问男、。问男、女胆固醇浓度有无差别?女胆固醇浓度有无差别?70 假设假设:H0:12 H1:12 0.050.05计算计算u u值值711.96 0.05 不拒绝不拒绝H0 无无1.96 0.05 拒绝拒绝H0,接受接受H1 有有2.58 0.01 拒绝拒绝H0,接受接受H1 有高度有高度u u值、值、P值与值与统计结论的关系(统计结论的关系(0.050.05)u u值值*P值值 结论结论 差异的统计学意义差异的统计学意义*为
30、双侧,单侧为双侧,单侧u界值为界值为1.645、2.326。72 确定确定P P值值 u u1.96 P1.96 P0.050.05 统计推断结论统计推断结论 P P0.05 0.05,在,在0.050.05水准上不拒绝水准上不拒绝H H0 0,差异无统计学意义。可认为男、女胆固差异无统计学意义。可认为男、女胆固醇浓度无差别。醇浓度无差别。73 2 2、两个小样本均数的比较两个小样本均数的比较 两样本含量两样本含量n n1 1、n n2 2较小时,可用较小时,可用t t检验。检验。要求资料服从正态分布,且要求两总要求资料服从正态分布,且要求两总体方差相等(方差齐)。体方差相等(方差齐)。74
31、计算公式为:计算公式为:v=n1+n227576 例例9.6 9.6 从从40405959岁有无肾囊肿的女性岁有无肾囊肿的女性中分别随机抽取中分别随机抽取1010与与1212人,测定她们的人,测定她们的尿素氮水平(尿素氮水平(mmolmmol/L/L)见下表。问两组见下表。问两组女性尿素氮水平有无差别?女性尿素氮水平有无差别?无肾囊肿无肾囊肿 4.05 4.18 5.93 3.14 4.30 2.41 4.05 4.18 5.93 3.14 4.30 2.41 7.60 6.61 2.98 5.93 4.18 4.05 7.60 6.61 2.98 5.93 4.18 4.05有肾囊肿有肾囊肿
32、 4.54 4.63 3.64 7.75 5.07 6.444.54 4.63 3.64 7.75 5.07 6.44 5.62 6.14 4.81 6.42 5.62 6.14 4.81 6.4240405959岁有无肾囊肿的女性的尿素氮水平(岁有无肾囊肿的女性的尿素氮水平(mmolmmol/L/L)77 假设假设:H0:1 12 2 H H1 1:1 12 2 0.050.05 单侧检验单侧检验 计算计算t t值值 n n1 112 x1 14.61 S1 11.57 n n2 210 x2 25.50 S2 21.207879确定确定P P值值 自由度自由度v vn n1 1n n2 2
33、2 2121210102 22020 查单侧查单侧t t值表值表t0.05,20 1.7251.725 t tt0.05,20 P P0.050.05统计推断结论统计推断结论 P P0.05 0.05,在,在0.050.05水准上不拒绝水准上不拒绝H H0,差异无统计学意义。可认为有、无肾囊肿差异无统计学意义。可认为有、无肾囊肿的女性尿素氮水平相同。的女性尿素氮水平相同。80 第四节第四节 方差方差(F)(F)分析分析 (ANOVAANOVA)适用两个或两个以上样本均数的比较。适用两个或两个以上样本均数的比较。应用条件应用条件 相互独立的随机样本相互独立的随机样本 各样本来自正态分布总体各样本
34、来自正态分布总体 各总体方差相等各总体方差相等81 一、一、单因素方差分析单因素方差分析 (完全随机设计的方差分析完全随机设计的方差分析)总变异总变异 组间变异组内变异组间变异组内变异(处理间)(处理间)(误差)(误差)分解分解 目的目的:推断:推断k k个样本所分别代表的总个样本所分别代表的总体均数体均数1 1,2 2,k k是否相等。是否相等。82 方差分析的方差分析的基本思想基本思想 例例9.79.7 随随机机抽抽取取50505959岁岁男男性性正正常常者者、冠冠心心病病人人、脂脂肪肪肝肝患患者者各各1111人人,测测定定空空腹腹血血糖糖值值,试试推推断断三三类类人人群群总总体体均均数是
35、否相等。数是否相等。834.75 6.26 5.784.75 4.36 6.684.77 5.24 5.44 4.62 5.59 5.72正常组正常组 冠心病组冠心病组 脂肪肝组脂肪肝组 X X1j 1j X X2j 2j X X3j3j 50.70 55.67 62.78 169.15()n 11 11 11 33(N)n 11 11 11 33(N)x xi i 4.61 5.06 5.71 5.13(x xi i)234.52 284.71 360.12 879.35()表表9.3 三组男性的三组男性的空腹血糖测定值空腹血糖测定值(mmolmmol/L/L)84每个观察值与总均数的差异为
36、每个观察值与总均数的差异为总变异总变异各组观察值与组均数的差异为各组观察值与组均数的差异为组内变异组内变异组均数与总均数的差异为组均数与总均数的差异为组间变异组间变异总变异组内变异组间变异总变异组内变异组间变异变异:变异:离均差的平方和离均差的平方和85 总变异总变异(总总)每个观察值与总均数之差的平方和每个观察值与总均数之差的平方和总总(x(xijijx)x)2 2 v v总总N N1 186 组内变异组内变异(组内组内)各组观察值与组均数之差的平方和各组观察值与组均数之差的平方和组内均方组内均方MSMS组内组内组内组内/v/v组内组内组内组内(x(xijijx xi i)2 2 v v组内
37、组内N Nk k87 组间变异组间变异(组间组间)组均数与总均数之差的平方和组均数与总均数之差的平方和MSMS组间组间组间组间/v/v组间组间组间组间nni i(x(xi ix)x)2 2 v v组间组间 k k1 188 若若1 12 23 3(H0),),x x1 1、x x2 2、x x3 3与与差异仅是由于抽样误差所致。差异仅是由于抽样误差所致。则则MSMS组内组内与与MSMS组间组间都是总体方差都是总体方差2 2的估计值的估计值 F F MSMS组间组间/MSMS组内组内 理论上理论上F F等于等于1 1,但由于存在抽样误差,但由于存在抽样误差F F不一定等于不一定等于1 1,但不会
38、偏离,但不会偏离1 1太远太远。89 从同一总体中随机抽取多个样本,从同一总体中随机抽取多个样本,计算的计算的F F不等,绘制的分布图称为不等,绘制的分布图称为F F分布分布,其形状与其形状与v v组间组间、v v组内组内有关。有关。90 如果各组均数所代表的总体均数与如果各组均数所代表的总体均数与合计的总体均数不等或不全等,合计的总体均数不等或不全等,MSMS组间组间则则大大 ,F F偏离偏离1 1较远,如较远,如F F值等于或大于设值等于或大于设定的水平定的水平(0.05)0.05)对应的对应的F F界值,则拒界值,则拒绝绝H H0 0。91变异来源变异来源 SS v MS F 总总 N1
39、 SS组间组间 MS组间组间 组间组间 k1 v组间组间 MS组内组内 SS组内组内组内组内 SS总总SS组间组间 N k v组内组内表表9-4 单因素方差分析的计算公式单因素方差分析的计算公式N为总例数,为总例数,k为处理组数为处理组数924.75 6.26 5.784.75 4.36 6.684.77 5.24 5.44 4.62 5.59 5.72正常组正常组 冠心病组冠心病组 脂肪肝组脂肪肝组 X X1j 1j X X2j 2j X X3j3j 50.70 55.67 62.78 169.15()n 11 11 11 33(N)n 11 11 11 33(N)x xi i 4.61 5
40、.06 5.71 5.13(x xi i)234.52 284.71 360.12 879.35()表表9.3 三组男性的三组男性的空腹血糖测定值空腹血糖测定值(mmolmmol/L/L)93 假设假设 H0:123 H1:1、2、3不等或不全等不等或不全等 0.050.0594 计算计算F F值值变异来源变异来源 SS v MS F P组间组间 6.70 2 3.35 17.63 0.01组内组内 5.63 30 0.19 总总 12.33 32表表9-5 方差分析计算表方差分析计算表95F0.05 0.05 不拒绝不拒绝H0 无无F0.05 0.05 拒绝拒绝H0,接受接受H1 有有F0.
41、01 0.01 拒绝拒绝H0,接受接受H1 有高度有高度F值、值、P值与值与统计结论的关系(统计结论的关系(0.050.05)F值值 P值值 结论结论 差异的统计学意义差异的统计学意义96 判断判断P P值,判断结果值,判断结果以以v v组间组间为为v v1 1(分子分子),v v组内组内为为v v2 2 (分母分母)查查F F界值表(界值表(P179P179):):F F0.05(20.05(2,30)30)3.32 F3.32 F0.01(20.01(2,30)30)5.395.39 F F F F0.01(20.01(2,30)30)P P0.010.01 在在0.050.05水准上拒绝
42、水准上拒绝H H0 0。可认为三组可认为三组人群的总体均数不同或不全同。人群的总体均数不同或不全同。97 二二、多个样本均数的两两比较的多个样本均数的两两比较的 q q检验检验(Student-Newman-Keuls法)法)多多个个样样本本均均数数比比较较F F分分析析,P P0.050.05,可可认认为为多多个个总总体体均均数数不不全全相相等等(至至少少有有两两个个总总体体均均数数间间不不等等),要要进进一一步步确确定定哪哪些些总总体体均数均数间间不等,需不等,需两两比较两两比较。98 q q检验步骤检验步骤 组组均数按均数按大小排列,标秩次。计算大小排列,标秩次。计算q q值值99 两两
43、两两比较组合数为比较组合数为 确定组数确定组数a a(秩次跨度)秩次跨度)a a秩次秩次大大秩次小秩次小1 11 1组和组和3 3组比较组比较a a3 31 1组和组和2 2组比较组比较a a2 22 2组和组和3 3组比较组比较a a2 2100根据检验水准根据检验水准、N N、组数、组数a a,查,查q q界界值表值表(P180)(P180),确定确定P P值。值。q0.05 0.05 不拒绝不拒绝H0 无无q0.05 0.05 拒绝拒绝H0,接受接受H1 有有q0.01 0.01 拒绝拒绝H0,接受接受H1 有高度有高度q值、值、P值与值与统计结论的关系(统计结论的关系(0.050.05
44、)q值值 P值值 结论结论 差异的统计学意义差异的统计学意义101 例例9.79.7 拒绝拒绝H H0 0 作作q q检验检验 假设假设 H0:任两组总体均数相等,任两组总体均数相等,A=B H1:任两组总体均数不相等,任两组总体均数不相等,A B =0.05102计算统计量计算统计量 均数均数 5.71 5.06 4.615.71 5.06 4.61 秩次秩次 1 2 3 1 2 3 组别组别 脂肪肝组脂肪肝组 冠心病组冠心病组 正常组正常组103MSMS组内组内0.190.19,n n1 1n n2 2n n 3 31111余类推。余类推。104对比组对比组 两均数差两均数差 标准误标准误
45、 q值值 组数组数 q界值界值 P A和和B xAxB S xAxB 0.05 0.011与与3 1.10 0.13 8.46 3 3.49 4.45 0.011与与2 0.65 0.13 5.00 2 2.89 3.89 0.012与与3 0.45 0.13 3.46 2 2.89 3.89 0.05q 检验计算表检验计算表确定确定P P值,判断结果值,判断结果 (略)(略)105 第五节第五节 假设检验中的两类错误假设检验中的两类错误 及应注意的问题及应注意的问题 一、两类错误一、两类错误 型错误型错误 H H0 0成立,但错误拒绝成立,但错误拒绝(弃真弃真)。其概率其概率用表示,通常称为
46、检验水准用表示,通常称为检验水准,常常取取0.050.05。106 型错误型错误 H H0 0不成立,但错误接受不成立,但错误接受(存伪存伪)。)。其概率其概率用表示。用表示。样本含量确定时,样本含量确定时,愈小,愈小,愈大;愈大;反之,反之,愈大,愈大,愈小。愈小。107108 1 1称为称为检验效能检验效能(把握度把握度),),即即H H0 0不成立时,拒绝不成立时,拒绝H H0 0的概率。的概率。意义意义:当两个总体存在差异时,所:当两个总体存在差异时,所用的统计检验能够发现这种差异(拒绝用的统计检验能够发现这种差异(拒绝H H0 0 )的能力。的能力。109 如如1 10.800.80
47、,意味两总体确有差意味两总体确有差异的情况下,理论上异的情况下,理论上100100次检验中,有次检验中,有8080次得出有统计学意义的结论。次得出有统计学意义的结论。110 二、假设检验应注意的问题二、假设检验应注意的问题 1 1、资料必须合乎随机化原则。样本具、资料必须合乎随机化原则。样本具有较好的代表性和可比性。有较好的代表性和可比性。2 2、选用的假设检验应符合其应用条件。、选用的假设检验应符合其应用条件。3 3、实际差别大小与统计学意义的区别。、实际差别大小与统计学意义的区别。4 4、下结论不能绝对化。、下结论不能绝对化。5 5、单侧与双侧检验的选择。、单侧与双侧检验的选择。111计量资料分析计量资料分析统计描述统计描述统计推断统计推断频数频数分布类型分布类型集中趋势集中趋势离散趋势离散趋势参考值范围参考值范围总体均数估计总体均数估计假设检验假设检验正正态(对称)态(对称)对数正态对数正态 偏态偏态 均数均数 lgxlgx t t 检验检验F F检验(检验(P P0.05,0.05,做做q q检验检验)样本与总体样本与总体配对配对样本与样本样本与样本(大样本(大样本u u检验)检验)112