《数值变量资料的统计分析-统计推断.ppt》由会员分享,可在线阅读,更多相关《数值变量资料的统计分析-统计推断.ppt(44页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二节第二节 数值变量资料的统计分析数值变量资料的统计分析统计推断统计推断 Statistical inference信阳职业技术学院信阳职业技术学院 赵玉霞赵玉霞主要内容主要内容一一 均数的抽样误差与标准误均数的抽样误差与标准误二二 t t分布分布三三 总体均数的估计总体均数的估计四四 均数的假设检验均数的假设检验学习目标1.1.1.1.说出抽样误差的概念说出抽样误差的概念说出抽样误差的概念说出抽样误差的概念2.2.2.2.记住标准误计算公式并能说出公式的含义记住标准误计算公式并能说出公式的含义记住标准误计算公式并能说出公式的含义记住标准误计算公式并能说出公式的含义3.3.3.3.描述描述描
2、述描述t t t t分布的特征及应用分布的特征及应用分布的特征及应用分布的特征及应用4.4.4.4.说出参数估计的含义及方法说出参数估计的含义及方法说出参数估计的含义及方法说出参数估计的含义及方法5.5.5.5.描述均数检验描述均数检验描述均数检验描述均数检验t t t t检验和检验和检验和检验和u u u u检验的方法检验的方法检验的方法检验的方法总体总体样本样本抽取部分观察单位抽取部分观察单位 统计量统计量统计量统计量 参参参参 数数数数 统计推断统计推断如:总体均数如:总体均数 总体标准差总体标准差 总体率总体率如:样本均数如:样本均数 样本标准差样本标准差S S 样本率样本率 P P
3、内容:内容:1.参数估计参数估计(estimation of parameters)2.包括:点估计包括:点估计与区间估计与区间估计3.2.假设检验假设检验(test of hypothesis)统计推断 statistical inference一 均数的抽样误差 抽样误差抽样误差(sampling error):由于个体差异导致的:由于个体差异导致的样本样本统计量之间或与统计量之间或与总体总体参数间的差别。参数间的差别。从某正态分布总体中,随机抽取样本含量从某正态分布总体中,随机抽取样本含量n100的的样本,每次抽样获得其均数分别为样本,每次抽样获得其均数分别为 ,他们之,他们之间及与间及
4、与 总体均数总体均数总是不相等。这种差异就是总是不相等。这种差异就是抽样误差抽样误差。1.抽样试验 从正态分布总体从正态分布总体N(5.00,0.502)中,每次随中,每次随机抽取样本含量机抽取样本含量n5,并计算其均数与标准差;,并计算其均数与标准差;重复抽取重复抽取1000次,获得次,获得1000份样本;计算份样本;计算1000份份样本的均数与标准差,并对样本的均数与标准差,并对1000份样本的均数作份样本的均数作直方图。直方图。按上述方法再做样本含量按上述方法再做样本含量n10、样本含量、样本含量n30的抽样实验;比较计算结果。的抽样实验;比较计算结果。抽样试验抽样试验(n=5)抽样试验
5、抽样试验(n=10)抽样试验抽样试验(n=30)1000份样本抽样计算结果总体的总体的总体的总体的均数均数均数均数总体标总体标总体标总体标准差准差准差准差s s均数的均数的均数的均数的均数均数均数均数均数标准差均数标准差均数标准差均数标准差n n=5=55.005.000.500.504.994.990.22120.22120.22360.2236n n=10=105.005.000.500.505.005.000.15800.15800.15810.1581n n=30=305.005.000.500.505.005.000.09200.09200.09130.09133个抽样实验结果图示抽
6、样实验小结 均数的均数均数的均数围绕总体均数上下波动。围绕总体均数上下波动。均数的标准差均数的标准差即即标准误标准误 与总体标准差与总体标准差 相相差一个常数的倍数,即差一个常数的倍数,即 样本样本均数的标准误均数的标准误(Standard Error)=样本标准差样本标准差/从正态总体从正态总体N(,2)中抽取样本,获得均数的中抽取样本,获得均数的分布仍近似呈分布仍近似呈正态分布正态分布N(,2/n)。2.中心极限定理(central limit theorem)即使从即使从非正态总体非正态总体中抽取样本,所得均数分布仍近似中抽取样本,所得均数分布仍近似呈呈正态正态。随着样本量的增大随着样本
7、量的增大,样本均数的样本均数的变异变异范围也逐渐变窄。范围也逐渐变窄。随机变量随机变量X XN N(m m,s s2 2)标准正态分布标准正态分布N N(0 0,1 12 2)u变换变换均数均数标准正态分布标准正态分布N N(0 0,1 12 2)Student t分布分布自由度:自由度:n-1二 t分布t分布曲线 t 分布分布有如下特征:有如下特征:是以是以0为中心随自由度而变化为中心随自由度而变化的一簇左右对称的曲线的一簇左右对称的曲线 单峰分布,曲线在单峰分布,曲线在t0 处最处最高,并以高,并以t0为中心左右对称为中心左右对称与正态分布相比,曲线最高处与正态分布相比,曲线最高处较矮,自
8、由度越小,两较矮,自由度越小,两尾部翘得尾部翘得越高越高(见绿线见绿线)随自由度增大,曲线逐渐接随自由度增大,曲线逐渐接近正态分布;分布的极限为标准近正态分布;分布的极限为标准正态分布。正态分布。t分布曲线 t 分布分布有如下特征:有如下特征:自由度相同时,自由度相同时,t越大,越大,p值越小值越小p值相同时,自由度越大,值相同时,自由度越大,t值越小值越小 t值相同时,自由度越大值相同时,自由度越大 p值越小值越小t1t2(t1t2,p1n2,t1n2,p1p2)t1t2tt分布曲线下面积单侧单侧t t0.050.05,9 91.833双侧双侧t t0.05/20.05/2,9 92.262
9、2.262 单侧单侧t t0.0250.025,9 9单侧单侧t t0.010.01,9 92.821双侧双侧t t0.01/20.01/2,9 93.2503.250 单侧单侧t t0.0050.005,9 9双侧双侧t t0.05/20.05/2,1.961.96 单侧单侧t t0.0250.025,单侧单侧t t0.050.05,1.641.640.013.2502.8210.005三 总体均数的估计1.总体均数的估计总体均数的估计(1).总体均数的点估计总体均数的点估计(point estimation)与区间估计与区间估计(2).总体均数的可信区间总体均数的可信区间(confiden
10、ce interval,CI)(3).大样本总体均数的可信区间大样本总体均数的可信区间2.可信区间的解释可信区间的解释1.总体均数的估计 (1).(1).总体均数的点估计与区间估计总体均数的点估计与区间估计参数的估计参数的估计点估计点估计:由样本统计量:由样本统计量 直接估计直接估计 总体参数总体参数区间估计区间估计:在一定:在一定可信度可信度(1-)下,下,同时考虑抽样误差同时考虑抽样误差 区间的可信度区间的可信度(如如95或或99)是重复抽样是重复抽样(如如1000次次)时,样本时,样本(如如n=5)区间包含总体参区间包含总体参数数()的百分数。常用的百分数。常用(1-)表示,表示,值一般
11、取值一般取0.05或或0.01。)或(;或写成),可信区间为(XXXXXStXStXStXStXStXnananananama,2/,2/,2/,2/,2/)1(+-+-(2).总体均数的可信区间(CI)(2).总体均数的可信区间(3).大样本总体均数的可信区间 2.可信区间的解释 9595可信区间可信区间:从总体中作随机抽样,作:从总体中作随机抽样,作100100次抽样,每个样本可算得一个可信区间,得次抽样,每个样本可算得一个可信区间,得100100个个可信区间,平均有可信区间,平均有9595个可信区间包括个可信区间包括(估计正确估计正确),只有,只有5 5个可信区间不包括个可信区间不包括(
12、估计错误估计错误)。9595可信区间可信区间可信区间可信区间 99 99可信区间可信区间可信区间可信区间公式公式公式公式区间范围区间范围区间范围区间范围窄窄窄窄 宽宽宽宽估计错误的概率估计错误的概率估计错误的概率估计错误的概率 大大大大(0.05)(0.05)小小小小(0.01)(0.01)XXStXStXn nn n,2/05.0,2/05.0,+-可信区间与参考值范围的比较四 均数的假设检验1.1.样本均数与总体均数的比较样本均数与总体均数的比较2.2.配对资料的比较配对资料的比较3.3.两样本均数的比较两样本均数的比较4.4.大样本均数比较的大样本均数比较的u u检验检验5.5.假设检验
13、的步骤及有关概念假设检验的步骤及有关概念1.样本均数与总体均数的比较 推断样本所代表的未知总体均数推断样本所代表的未知总体均数 与已知总与已知总体均数体均数 0 0有无差别。有无差别。已知总体均数已知总体均数 0 0一般为理论值、标准值或一般为理论值、标准值或经大量观察所得的稳定值。经大量观察所得的稳定值。统计量统计量t t的计算公式:的计算公式:实 例根据专业知识确定单、双侧检验2.配对资料的比较 两种情况两种情况:1.随机配对设计随机配对设计(randomized paired design)是将受试对象按某些混杂因素是将受试对象按某些混杂因素(如性别、年龄、如性别、年龄、窝别等窝别等)配
14、成对子配成对子,每对中的两个个体随机分配给两种,每对中的两个个体随机分配给两种处理处理(如处理组与对照组如处理组与对照组);2.或者或者同一受试对象同一受试对象作两次作两次不同的处理不同的处理(自身对照自身对照)。优点优点:配对设计:配对设计减少了个体差异减少了个体差异。特点特点:资料成对,每对数据不可拆分。资料成对,每对数据不可拆分。2.配对资料的比较方法例:两法测定12份尿铅含量的结果样品号样品号样品号样品号尿铅含量尿铅含量尿铅含量尿铅含量(mol.Lmol.L1 1)简便法简便法简便法简便法常规法常规法常规法常规法差值差值差值差值(d d)1 1 2.41 2.41 2.80 2.80-
15、0.39-0.390.15210.1521 2 2 2.90 2.90 3.04 3.04-0.14-0.140.01960.0196 3 3 2.75 2.75 1.88 1.88 0.87 0.870.75690.7569 4 4 3.23 3.23 3.43 3.43-0.20-0.200.04000.0400 5 5 3.67 3.67 3.81 3.81-0.14-0.140.01960.0196 6 6 4.49 4.49 4.00 4.00 0.49 0.490.24010.2401 7 7 5.16 5.16 4.44 4.44 0.72 0.720.51840.5184 8
16、8 5.45 5.45 5.41 5.41 0.04 0.040.00160.0016 9 9 2.06 2.06 1.24 1.24 0.82 0.820.67240.67241010 1.64 1.64 1.83 1.83-0.19-0.190.03610.03611111 1.06 1.06 1.45 1.45-0.39-0.390.15210.15211212 0.77 0.77 0.92 0.92-0.15-0.150.02250.0225合合合合 计计计计-1.34 1.342.63142.6314两法测定结果的比较3.两样本均数的比较 完全随机设计完全随机设计(completel
17、y random design):把受试对:把受试对象完全随机分为两组,分别给予不同处理,然后比较独立象完全随机分为两组,分别给予不同处理,然后比较独立的两组样本均数。各组对象数不必严格相同。的两组样本均数。各组对象数不必严格相同。目的:目的:比较两总体均数是否相同。比较两总体均数是否相同。条件:条件:假定资料来自正态总体,假定资料来自正态总体,1 12 2=2 22 2实 例4.大样本均数比较的u检验 两样本均数比较时两样本均数比较时当每组样本量大于当每组样本量大于30(或或50)时,可采用时,可采用u检验;但只是检验;但只是近似方法近似方法。优点:简单,优点:简单,u界值与自由度无关,界值
18、与自由度无关,u0.051.96,u0.012.585.假设检验的步骤及有关概念总体间差异总体间差异:1.个体差异,抽样误差所致;个体差异,抽样误差所致;2.总体间固有差异总体间固有差异 判断差别属于哪一种情况的统计学检验,就判断差别属于哪一种情况的统计学检验,就是是假设检验假设检验(test of hypothesis)。t检验是最常用的一种假设检验之一。检验是最常用的一种假设检验之一。小概率思想小概率思想:P0.05(或或P(0.05)样本差别无统计学意义样本差别无统计学意义1 1 1 1、建立假设与确定检验水准、建立假设与确定检验水准、建立假设与确定检验水准、建立假设与确定检验水准()(
19、)()()H H H H0 0 0 0:1 1 1 12 2 2 2 无效假设无效假设无效假设无效假设(null hypothesis)(null hypothesis)(null hypothesis)(null hypothesis)H H H H1 1 1 1:1 1 1 12 2 2 2 备择假设备择假设备择假设备择假设(alternative hypothesis)(alternative hypothesis)(alternative hypothesis)(alternative hypothesis)检验水准检验水准检验水准检验水准(level of a test)(level
20、 of a test)(level of a test)(level of a test):=0.05(=0.05(=0.05(=0.05(双侧双侧双侧双侧)2 2 2 2、选定方法和计算统计量:、选定方法和计算统计量:、选定方法和计算统计量:、选定方法和计算统计量:根据统计推断目的、设计、资料组数、样本含量、等根据统计推断目的、设计、资料组数、样本含量、等根据统计推断目的、设计、资料组数、样本含量、等根据统计推断目的、设计、资料组数、样本含量、等选择方法。如两组小样本比较用选择方法。如两组小样本比较用选择方法。如两组小样本比较用选择方法。如两组小样本比较用t t t t检验、大样本比较检验、
21、大样本比较检验、大样本比较检验、大样本比较u u u u检验、方差齐性检验用检验、方差齐性检验用检验、方差齐性检验用检验、方差齐性检验用F F F F检验。检验。检验。检验。3 3 3 3、确定、确定、确定、确定P P P P值,作出判断值,作出判断值,作出判断值,作出判断 P P P P(0.05)(0.05)(0.05)(0.05)样本差别有统计学意义;样本差别有统计学意义;样本差别有统计学意义;样本差别有统计学意义;P P P P(0.05)(0.05)(0.05)(0.05)样本差别无统计学意义样本差别无统计学意义样本差别无统计学意义样本差别无统计学意义 假设检验的步骤 型错误和型错误
22、 由样本推断的结果由样本推断的结果由样本推断的结果由样本推断的结果 真实结果真实结果真实结果真实结果 拒绝拒绝拒绝拒绝HH0 0 不拒绝不拒绝不拒绝不拒绝HH0 0 HH0 0成立成立成立成立 型错误型错误型错误型错误 a a 推断正确推断正确推断正确推断正确(1(1a a)HH0 0不成立不成立不成立不成立 推断正确推断正确推断正确推断正确(1(1b)型错误型错误型错误型错误b(1b)即即把握度把握度(power of a test):两总体确有差两总体确有差别,被检出有差别的能力别,被检出有差别的能力(1a)即即可信度可信度(confidence level):重复抽样时,重复抽样时,样本
23、区间包含总体参数样本区间包含总体参数(m)的百分数的百分数 对于一般的假设检验,对于一般的假设检验,a a定定为为0.05(0.05(或或0.01)0.01),b b的的大大小小取取决决于于H H1 1。通通常常情情况况下下,比比较较总总体体间间有有无无差差异异并并不不知知道道,即即H H1 1不不明明确确,b b值值的的大大小小无无法法确确定定,也也就就是是说说,对对于于一一般般的的假假设设检检验验,我我们们并并不不知知道犯道犯型错误的概率型错误的概率b b有多大有多大。通常情况下型错误未知a ab b减少减少(增加增加)I型错误型错误,将会增,将会增加加(减少减少)II型错误型错误增大增大
24、n 同时降低同时降低a a 与与 b b a a 与与 b b 间的关系间的关系 假设检验注意事项(1)(1)(1)(1)可比性可比性可比性可比性(2)(2)(2)(2)正确选用假设检验方法正确选用假设检验方法正确选用假设检验方法正确选用假设检验方法(3)(3)(3)(3)差别的实际意义差别的实际意义差别的实际意义差别的实际意义(4)(4)(4)(4)判断结论时不能绝对化判断结论时不能绝对化判断结论时不能绝对化判断结论时不能绝对化(5)(5)(5)(5)单侧检验与双侧检验单侧检验与双侧检验单侧检验与双侧检验单侧检验与双侧检验(6)(6)(6)(6)报告结果应写出统计量值、具体报告结果应写出统计量值、具体报告结果应写出统计量值、具体报告结果应写出统计量值、具体P P P P值,有时应注明;值,有时应注明;值,有时应注明;值,有时应注明;95959595CICICICI既能说明差别的大小,也具有检验的作用,建既能说明差别的大小,也具有检验的作用,建既能说明差别的大小,也具有检验的作用,建既能说明差别的大小,也具有检验的作用,建议使用。议使用。议使用。议使用。