《抽样误差与抽样分布课件.ppt》由会员分享,可在线阅读,更多相关《抽样误差与抽样分布课件.ppt(45页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、抽样误差与抽样分布1第1页,此课件共45页哦抽样误差l从脉搏总体均数 为72.5次,标准差 为6.3次的正态分布总体中随机抽样。样本个数为10,样本量为9.n=10 .2第2页,此课件共45页哦例4-1 样本量为9,从N(72.5,6.32)中共随机抽取10个样本3第3页,此课件共45页哦计算样本均数的均数:计算样本均数的标准差:4第4页,此课件共45页哦例4-2 P51 随机重复抽样共抽10个样本,样本量为25。计算样本均数的均数和标准差.5第5页,此课件共45页哦表表4-2 样本量为样本量为25 从从N(72.5,6.32)共随机抽取共随机抽取10个样本个样本6第6页,此课件共45页哦7第
2、7页,此课件共45页哦抽样误差l结果:各样本均数不一定等于总体均数样本均数间存在差异样本均数的分布规律:围绕总体均数上下波动样本均数的变异:由样本均数的标准差描述,样本均数的波动幅度远小于原始资料的波动幅度抽样误差基本上在0附近近似对称地随机波动在同一总体进行随机抽样,随着样本例数的增加,样本均数的波动幅度在减小。8第8页,此课件共45页哦抽样误差l抽样误差Sampling error 由抽样引起的样本统计量与总体参数间的差异l来源:个体变异抽样l表现样本统计量与总体参数间的差异样本统计量间的差异9第9页,此课件共45页哦l样本均数的规律性随机的在概率意义下是有规律的-抽样分布通过大量重复抽样
3、,借助频数表描述样本均数的变异规律(抽样分布)与个体观察值变异规律有关l即使只有一个样本资料,也可由样本资料的个体观察值的变异规律间接得到样本均数的变异规律抽样分布10第10页,此课件共45页哦正态总体样本均数的分布l例4-3 按样本量为9和样本量为25 在上述总体中N(72.5,6.3)进行随机抽样l每次抽取10000个样本并计算各自的样本均数l以10000个样本均数作为一个新的样本制作频率密度分布图11第11页,此课件共45页哦抽样1样本含量n=9 的平均数=72.54 的标准差=2.14样本均数的分布原始资料的分布理论值12第12页,此课件共45页哦抽样2样本含量 n=25 的平均数=7
4、2.50 的标准差=1.27 理论值13第13页,此课件共45页哦抽样3样本含量 n=36 的平均数=72.50 的标准差=1.06 理论值14第14页,此课件共45页哦l从正态分布的总体 中随机抽取样本含量为n的样本X1,X2,Xn,其样本均数 服从正态分布,总体均数为 ;样本均数的总体标准差l若 ,则其中任意一个随机样本Xn的均数正态总体样本均数的分布15第15页,此课件共45页哦l样本均数的标准差 ,称为样本均数的标准误(standard error of mean,SE),简称均数标准误l它反映样本均数之间的离散程度,也反映样本均数抽样误差的大小。l误差大小 ,实质是要估计 的分布特征
5、 正态总体样本均数的分布16第16页,此课件共45页哦l由于实际 往往未知,需要用样本 来估计 ,样本均数标准误的估计式为l注意区别:l证明:正态总体样本均数的分布17第17页,此课件共45页哦非正态总体样本均数的分布l例4-4 从总体均数为1,总体方差为2的卡方分布中抽样,样本大小分别为4,9,200。每次抽10000个样本制作频率密度分布图18第18页,此课件共45页哦19第19页,此课件共45页哦样本含量n=4 的平均数=1.0111 的标准差=0.7084 的中位数=0.853120第20页,此课件共45页哦样本含量n=9 的平均数=1.0078 的标准差=0.4771 的中位数=0.
6、928021第21页,此课件共45页哦样本含量n=200 的平均数=1.0078 的标准差=0.1004 的中位数=0.997322第22页,此课件共45页哦l从非正态卡方分布总体中随机抽样所得样本均数:在样本含量较小时呈偏态样本含量较大时接近正态分布均数始终在总体均数附近均数的标准差非正态总体样本均数的分布23第23页,此课件共45页哦中心极限定理及其应用l样本均数总体标准差是个体资料X的总体标准差的;即理论标准误l理论标准误的样本估计值为l样本均数与个体资料X的集中位置相同,即样本均数的总体均数与个体资料X的总体均数相同24第24页,此课件共45页哦中心极限定理及其应用l若个体资料X服从正
7、态总体 ,则样本均数 也服从正态分布 ;l个体资料X服从偏态分布,当样本量n较大时,样本均数 近似服从正态分布25第25页,此课件共45页哦 l例4-5 大规模普查得某地健康成年男子血红蛋白总体均数为 .随机抽样,样本量为100,理论标准误和样本均数的估计标准误。26第26页,此课件共45页哦二、率的抽样误差和抽样分布 l总体率由样本率估计例如,设样本的个体数(即样本含量)为n,若x为样本的某指标阳性个体数,则可用样本阳性率 估计研究人群的阳性率(总体阳性率);l由于个体差异和偶然性的影响,样本率也存在抽样误差-由抽样造成样本率与总体率(研究人群的率)的差异 l样本率是随机的,但在概率意义下也
8、是有规律的-样本率的分布。27第27页,此课件共45页哦l随机抽样试验,分别在总体率=0.25,0.5,的总体中随机抽样,其总体率和样本含量nl每种情况分别随机抽10000个样本,每个样本计算其样本率,把同一种情况的10000个样本率视为一个新的样本资料作频率图 样本率的分布 28第28页,此课件共45页哦抽样129第29页,此课件共45页哦抽样130第30页,此课件共45页哦抽样331第31页,此课件共45页哦抽样432第32页,此课件共45页哦33第33页,此课件共45页哦34第34页,此课件共45页哦l结果总体率相同时,样本含量越大,样本率的分布越趋向对称。样本含量n相同时,越偏离0.5
9、,样本率的分布越偏态分布。总体率0.5时,任意样本含量的样本率都呈对称分布。样本率p的样本标准差 。样本率的分布 35第35页,此课件共45页哦中心极限定理及其推论l若样本中的个体个数(即样本含量)为n,总体率为,样本率为p,则样本率的总体均数等于总体率样本率的总体标准差(即率的标准误)由于总体率通常是未知的,因而用样本率p来估计,故率的标准误的估计值常表示为 36第36页,此课件共45页哦对于大量重复随机抽样而言,样本率p围绕着总体率 波动样本含量n越大,这种波动越小。当n的值充分大时,p的分布就近似于均数为 ,标准差为 的正态分布。这里样本含量n“充分大”指 、且n40。当总体率0.5时,
10、则样本率p的分布为对称分布 当样本含量n为定值时,总体率越接近0.5,样本率p近似正态分布的程度就越好 中心极限定理及其推论37第37页,此课件共45页哦STATA命令模拟各种分布l模拟正态分布的样本均数分布 Simumean 样本量 均数 标准差l模拟类似卡方分布的均数分布 Simuchis 样本量 均数l模拟指数分布的均数分布 Simuexp 样本量 均数38第38页,此课件共45页哦 t分布l ,标准正态分布与t统计量 l实际研究中未知,用样本的标准差S作为的一个近似值(估计值)代替,得到变换后的统计量并记为 39第39页,此课件共45页哦l如在正态总体N(168.18,62)中随机抽样
11、,样本量分别取n=5,n=100,均抽10000个样本,分别计算t值和U值并作相应t的频数图 t分布40第40页,此课件共45页哦 t分布样本含量n=5样本含量n=100 t统计量的频率密度图 41第41页,此课件共45页哦l结果小样本时,t统计量和U统计量的分布有明显差别大样本时,t统计量和U统计量的分布非常接近。l频率密度图当样本量较大时,统计量t的频率密度图与标准正态分布曲线非常接近样本含量较小时,t统计量的峰值比标准正态分布的峰值略小,双侧尾部的值则较标准正态分布略大 t分布42第42页,此课件共45页哦l英国统计学家W.S.Gosset(1908)设 并给出了统计量t的分布规律,并称统计量t的分布规律为t分布,自由度为v,记为t(v)分布。l每个自由度v对应一个分布,因此t分布是一簇分布 lt分布仅与总体均数有关,与总体标准差无关 t分布43第43页,此课件共45页哦STATA命令模拟各种分布l模拟双峰分布的均数分布 Simubpeak 样本量 均数l模拟三角形分布的均数分布 Simutrang 样本量 均数44第44页,此课件共45页哦l三条t分布密度曲线 t分布v=1v=5v=45第45页,此课件共45页哦