《数值变量资料的统计推断两组资料.pptx》由会员分享,可在线阅读,更多相关《数值变量资料的统计推断两组资料.pptx(31页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 预防医学教研室 朱彩华 两组资料均数的比较两组资料均数的比较第一节第一节 均数的抽样误差均数的抽样误差第二节第二节 t t分布与可信区间分布与可信区间第三节第三节 t t检验检验第四节第四节 假设检验的步骤假设检验的步骤 及其有关概念及其有关概念第1页/共31页 预防医学教研室 朱彩华 总体总体总体总体样本样本抽取部分观察单位抽取部分观察单位 统计量统计量统计量统计量 参参参参 数数数数 统计推断统计推断统计推断统计推断 statistical inferencestatistical inference如:样本均数如:样本均数 样本标准差样本标准差S 样本率样本率 p如:总体均数如:总体均
2、数 总体标准差总体标准差 总体率总体率内容:内容:1.参数估计参数估计(estimation of parameters)包括:点估计包括:点估计与区间估计与区间估计2.假设检验假设检验(test of hypothesis)随机随机第2页/共31页 预防医学教研室 朱彩华 总体总体总体总体样本样本抽取部分观察单位抽取部分观察单位 统计量统计量统计量统计量 参参参参 数数数数 统计推断统计推断第一节第一节 均数的抽样误差均数的抽样误差如:如:样本均数样本均数 样本标准差样本标准差S 样本率样本率 P如:如:总体均数总体均数 总体标准差总体标准差 总体率总体率 抽样误差抽样误差 (samplin
3、g error)sampling error):由于个体差异导致的由于个体差异导致的样样本本统计量与统计量与总体总体参数以及参数以及各样本统计量间的差别。各样本统计量间的差别。第3页/共31页 预防医学教研室 朱彩华 一、抽样试验一、抽样试验 l 从正态分布总体从正态分布总体N N(5.00,0.505.00,0.50)中,每次随机抽取样本含量)中,每次随机抽取样本含量n n5 5,并计算其均,并计算其均数与标准差;重复抽取数与标准差;重复抽取10001000次,获得次,获得10001000份样本;份样本;l 计算计算10001000份样本的均数与标准差,并对份样本的均数与标准差,并对1000
4、1000份样本的均数作直方图。份样本的均数作直方图。u 按上述方法再做样本含量按上述方法再做样本含量n n1010、样本含量、样本含量n n3030的抽样实验;比较计算结果。的抽样实验;比较计算结果。第4页/共31页 预防医学教研室 朱彩华 抽样试验(抽样试验(n n=5=5)第5页/共31页 预防医学教研室 朱彩华 抽样试验(抽样试验(n n=10=10)第6页/共31页 预防医学教研室 朱彩华 抽样试验(抽样试验(n n=30=30)第7页/共31页 预防医学教研室 朱彩华 10001000份样本抽样计算结果份样本抽样计算结果总体总体的均的均数数总体标总体标准差准差 均数均数的均的均数数均
5、数标准均数标准差差n n=5=55.005.000.500.504.994.990.22120.22120.22360.2236n n=10=10 5.005.000.500.505.005.000.15800.15800.15810.1581n n=30=30 5.005.000.500.505.005.000.09200.09200.09130.0913X 标准误标准误(即即抽样误抽样误差差)的大小:的大小:与与S成正比与成正比与n成成反比反比;S S一定时,增大一定时,增大n n可减小可减小抽样误差抽样误差第8页/共31页 预防医学教研室 朱彩华 3 3个抽样实验结果图示个抽样实验结果图
6、示第9页/共31页 预防医学教研室 朱彩华 抽样实验小结抽样实验小结 均数的均数均数的均数围绕总体均数上下波动。围绕总体均数上下波动。均数的标准差均数的标准差即即标准误标准误 与总体标准与总体标准 差差 相差一个常数的倍数,即相差一个常数的倍数,即 样本样本均数的标准误(均数的标准误(Standard Error)Standard Error)=样本标准差样本标准差/u 从正态总体从正态总体N N(,)中抽取样本,获得均数的分布仍近似呈中抽取样本,获得均数的分布仍近似呈正态分布正态分布N(,/n)。第10页/共31页 预防医学教研室 朱彩华 二、中心极限定理二、中心极限定理 central l
7、imit theoremcentral limit theorem即使从即使从非正态总体非正态总体中抽取样本含量足够大时中抽取样本含量足够大时(如如n n30),30),所得均数分布仍近似呈所得均数分布仍近似呈正态正态。随着样本量的增大随着样本量的增大,样本均数的样本均数的变异变异范围也逐渐变窄。范围也逐渐变窄。第11页/共31页 预防医学教研室 朱彩华 X 1S1X 2 S2 X ISiX nSnx标准误示意图标准误示意图第12页/共31页 预防医学教研室 朱彩华 标准误的应用标准误的应用(1)表示抽样误差的大小;)表示抽样误差的大小;(2)表示样本均数()表示样本均数(x x)代表总体均数
8、)代表总体均数 ()的可靠程度:)的可靠程度:x Sx;(3)估计总体均数的可信区间;)估计总体均数的可信区间;(4)假设检验。)假设检验。第13页/共31页 预防医学教研室 朱彩华 第二节第二节 t t 分布与可信区间分布与可信区间一、一、t t分布(分布(t t distribution distribution)二、总体均数的估计二、总体均数的估计 1.1.总体均数的点估计(总体均数的点估计(point estimationpoint estimation)与区间估计与区间估计 2.2.总体均数的可信区间(总体均数的可信区间(confidence confidence interval
9、interval,CICI)3.3.总体均数差的可信区间总体均数差的可信区间 4.4.大样本总体均数的可信区间大样本总体均数的可信区间三、可信区间的解释三、可信区间的解释第14页/共31页 预防医学教研室 朱彩华 一、一、t t分布分布随机变量随机变量 N N(,s s)标准正态分布标准正态分布N N(0 0,1 1)u 变换均数均数 N(,)标准正态分布标准正态分布N N(0 0,1 1)t t分布分布自由度:自由度:n n-1-1第15页/共31页 预防医学教研室 朱彩华 t t分布的概率密度函数分布的概率密度函数式中式中 为伽玛函数;为伽玛函数;圆周率(圆周率(ExcelExcel函数为
10、函数为PIPI()())为自由度(为自由度(degree of freedomdegree of freedom),是),是t t 分布分布的唯一参数;的唯一参数;t t为随机变量。为随机变量。以以t t为横轴,为横轴,f f(t t)为纵轴为纵轴,可绘制可绘制t t分布曲线。分布曲线。第16页/共31页 预防医学教研室 朱彩华 t t分布曲线分布曲线 t t分布分布有如下性质:有如下性质:单峰分布,曲线在单峰分布,曲线在t t0 0 处最高,并以处最高,并以t t0 0为中心左右对称为中心左右对称与正态分布相比,曲与正态分布相比,曲线最高处较矮,两线最高处较矮,两尾部尾部翘得高翘得高(如(如
11、V=5V=5或或1 1)随自由度增大,曲随自由度增大,曲线逐渐接近正态分布;线逐渐接近正态分布;分布的极限为标准正态分布的极限为标准正态分布。分布。=(t u)=5 =1第17页/共31页 预防医学教研室 朱彩华 t t分布曲线下面积分布曲线下面积(附表(附表9-19-1)双侧双侧t t0.05/20.05/2,9 92.2622.262 单侧单侧t t0.0250.025,9 9单侧单侧t t0.050.05,9 91.8331.833双侧双侧t t0.01/20.01/2,9 93.2503.250 单侧单侧t t0.0050.005,9 9单侧单侧t t0.010.01,9 92.821
12、2.821双侧双侧t t0.05/20.05/2,1.961.96 单侧单侧t t0.0250.025,单侧单侧t t0.050.05,1.641.64第18页/共31页 预防医学教研室 朱彩华 v 根据 t 分布的变化特征,归纳以下两点:在相同的在相同的P条件下,条件下,越小,t值越大、越大,t值越小。在相同的在相同的条件下,条件下,P P越小,越小,t t值越大。值越大。即:即:t t值越大、值越大、P P越小越小 t t值越小、值越小、P P越大越大 在相同的在相同的t值值、条件下,条件下,双侧概率P P为单侧概率P P的两的两倍、倍、或或单侧概率P P为为双侧概率P P的一半。的一半。
13、即即t 值表规律:值表规律:自由度(自由度()一定时,)一定时,P 与与 t 成反比成反比;概率(概率(P)一定时,一定时,与与 t 成反比成反比;第19页/共31页 预防医学教研室 朱彩华 二、二、总体均数的估计 1.1.总体均数的点估计(总体均数的点估计(point estimationpoint estimation)与区间估计与区间估计:参数的估计参数的估计点估计点估计:由样本统计量:由样本统计量 直接估计直接估计 总体参数总体参数区间估计区间估计:考虑抽样误差的影响:考虑抽样误差的影响、在一定在一定可信度可信度(Confidence level)下,计算出包含有未知总)下,计算出包含
14、有未知总体均数的体均数的一个范围范围,即为。第20页/共31页 预防医学教研室 朱彩华 可信度与可信区间可信度与可信区间 区间的区间的可信度可信度(如(如9595或或9999)是重复抽样(如)是重复抽样(如10001000次)时,样本(如次)时,样本(如n n=5 5)区间包含总体参数)区间包含总体参数()的百分数的百分数(概率概率)。常用常用 (1-(1-)表示表示可信度 值一般取值一般取0.050.05或或0.010.01。第21页/共31页 预防医学教研室 朱彩华 第22页/共31页 预防医学教研室 朱彩华 总体均数区间估计总体均数区间估计(1):虽虽 不知,但不知,但 n 足够大足够大
15、(100或或50)时)时,的平均数的平均数 接近正接近正 态分布态分布则:按正态分布原理则:按正态分布原理总体均数总体均数95%可信区间:可信区间:1.96 S 总体均数总体均数99%可信区间:可信区间:2.58 S-第23页/共31页 预防医学教研室 朱彩华 大样本总体均数的可信区间(1)第24页/共31页 预防医学教研室 朱彩华 总体均数区间估计总体均数区间估计(2):当当 已知,无论已知,无论 n 多大多大,用正用正 态分布法态分布法则:则:总体均数总体均数95%可信区间:可信区间:1.96 总体均数总体均数99%可信区间:可信区间:2.58 -第25页/共31页 预防医学教研室 朱彩华
16、 总体均数区间估计总体均数区间估计(3):当当 不知,且不知,且 n 为小样本为小样本(如(如100或或50)时)时,则:按则:按 t 分布法分布法第26页/共31页 预防医学教研室 朱彩华 总体均数的可信区间 例:第27页/共31页 预防医学教研室 朱彩华 三、可信区间的解释 9595可信区间可信区间:从总体中作随机抽样,作:从总体中作随机抽样,作100100次抽样,每个样本可算得一个可次抽样,每个样本可算得一个可信区间,得信区间,得100100个可信区间,平均有个可信区间,平均有9595个可信区间包括个可信区间包括(估计正确估计正确),只有,只有5 5个可个可信区间不包括信区间不包括(估计
17、错误估计错误)。9595可信区间可信区间 9999可信区间可信区间 公式公式 区间范围区间范围 窄窄 宽宽 估计错误的概率估计错误的概率 大(大(0.050.05)小(小(0.010.01)第28页/共31页 预防医学教研室 朱彩华 可信区间与参考值范围的区别可信区间与参考值范围的区别第29页/共31页 预防医学教研室 朱彩华 区别区别总体均数可信区间总体均数可信区间参考值范围参考值范围(1 1)含含义义按预先给定的概率,确定的未知按预先给定的概率,确定的未知参数参数 的可能范围。实际上一次的可能范围。实际上一次抽样算得的可信区间要么包含了抽样算得的可信区间要么包含了总体均数,要么不包含。但可以总体均数,要么不包含。但可以说:当说:当=0.05时,时,95%CI估计正估计正确的概率为确的概率为0.95,估计错误的概,估计错误的概率小于或等于率小于或等于0.05,即有,即有95%的的可能性包含了总体均数。可能性包含了总体均数。“正常人正常人”的解的解剖,生理,生剖,生理,生化某项指标的化某项指标的波动范围。波动范围。可信区间与参考值范围的区别可信区间与参考值范围的区别第30页/共31页 预防医学教研室 朱彩华 谢谢您的观看!第31页/共31页