《抽样误差和t分布.ppt》由会员分享,可在线阅读,更多相关《抽样误差和t分布.ppt(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、抽样误差和t 分布 荀鹏程Samplingerrorandtdistribution抽样误差的概念 由抽样引起的样本统计量与总体参数间的差异由抽样引起的样本统计量与总体参数间的差异两种表现形式两种表现形式样本统计量与总体参数间的差异样本统计量与总体参数间的差异样本统计量间的差异样本统计量间的差异抽样研究抽样研究个体变异个体变异抽样误差产生的条件 均数的抽样误差及标准误 表现一:样本均数与总体均数之差值表现一:样本均数与总体均数之差值表现二:多个样本均数间的离散度表现二:多个样本均数间的离散度中心极限定理(central limit theorem)从均数为、标准差为的总体中独立随机抽样,当样本
2、含量n增加时,样本均数的分布将趋于正态分布,此分布的均数为,标准差为 。标准误(standard error,SE),样本统计量的标准差称为标准误,用来衡量抽样误差的大小。样本均数的标准差称为标准误。此标准误与个体变异 成正比,与样本含量n的平方根成反比。实际工作中,实际工作中,往往是未知的,一般可用样本标准差往往是未知的,一般可用样本标准差s s代替代替 :因为标准差因为标准差s s随样本含量的增加而趋于稳定,故增加随样本含量的增加而趋于稳定,故增加样本含量可以降低抽样误差。样本含量可以降低抽样误差。中心极限定理表明,即使从非正态总体中随机抽样,中心极限定理表明,即使从非正态总体中随机抽样,
3、只要样本含量足够大,样本均数的分布也趋于正态分只要样本含量足够大,样本均数的分布也趋于正态分布布,见图,见图3.1。图图3.13.1描述了来自不同总体的样本均数之抽样误差和描述了来自不同总体的样本均数之抽样误差和抽样分布规律。事实上,任何一个样本统计量均有其抽样分布规律。事实上,任何一个样本统计量均有其分布。统计量的抽样分布规律是进行统计推断的理论分布。统计量的抽样分布规律是进行统计推断的理论基础。基础。标准差与标准误的联系和区别 联系联系都是变异指标。S反映个体观察值的变异;反映统计量的变异。当n不变时,标准差,标准误 标准差与均数结合,用于描述观察值的分布范围,如医学参考值范围的估计;标准
4、误与均数结合,用于估计总体均数可能出现的范围,如参数估计的置信区间。t分布设从正态分布N(,2)中随机抽取含量为n的样本,样本均数和标准差分别为 和s,设:则t值服从自由度为n-1的t分布(t-distribution)。Gosset于1908年在生物统计杂志上发表该论文时用的是笔名“Student”,故t分布又称Studentt分布。f(t)=(标准正态曲线)=5=10.10.2-4-3-2-1012340.3图3.2自由度分别为1、5、时的t分布t分布的特征t分布为一簇单峰分布曲线分布为一簇单峰分布曲线t分布以分布以0为中心,左右对称为中心,左右对称t分分布布与与自自由由度度 有有关关,自
5、自由由度度越越小小,t分分布布的的峰峰越越低低,而而两两侧侧尾尾部部翘翘得得越越高高,;自自由由度度逐逐渐渐增增大大时时,t分分布布逐逐渐渐逼逼近近标标准准正正态态分分布布;当当自自由由度度为为无无穷穷大大时时,t分分布布就就是标准正态分布。是标准正态分布。每一自由度下的t分布曲线都有其自身分布规律t分布表明,从正态分布总体中随机抽取的样本,由样本计算的t值接近0的可能性较大,远离0的可能性较小。t0.05,102.228,表明,从正态分布总体中抽取样本含量为n=11的样本,则由该样本计算的t值大于等于2.228的概率为0.025,小于等于-2.228的概率亦为0.025。P(t-2.228)
6、+P(t2.228)0.05 或:P(-2.228t2.228)=1-0.05=0.95。請問請問SD與與SE的差別。多除了一個的差別。多除了一個n有什麼差別。有什麼差別。我查過了課本,他說有時候我查過了課本,他說有時候SD會等於會等於SE那是在什麼情況下阿。那是在什麼情況下阿。感覺有一點點奇怪,除非感覺有一點點奇怪,除非n很小不然很小不然SE會比會比SD小小回答者:回答者:統計老兵統計老兵yhliu回答時間:回答時間:2008-01-1520:06:34如果如果SE=SD/n,怎可能怎可能SE=SD?除非除非n=1.實際上實際上SD(標準差標準差,standarddeviation)與與SE
7、(standarderror)說起來頗複雜說起來頗複雜.複雜的原因是複雜的原因是:因為它們都代表了不只一因為它們都代表了不只一個量個量!簡單地說簡單地說,每一個資料分布每一個資料分布,不管是群體或樣本不管是群體或樣本,基本上都可基本上都可以算出一個標準差以算出一個標準差(當然當然,就理論上的群體分布而言就理論上的群體分布而言,是有可是有可能不存在標準差能不存在標準差.)從群體抽樣從群體抽樣,可以計算樣本平均數可以計算樣本平均數,樣本標準差等等樣本標準差等等.但這些但這些由樣本算出的量由樣本算出的量,所謂所謂統計量統計量(statistic),本身也有個機率分本身也有個機率分布布,稱為這統計量的
8、稱為這統計量的抽樣分布抽樣分布(samplingdistribution).舉個簡單的例子舉個簡單的例子,群體數據是群體數據是1,2,3,4,5,6.你可以計算這群你可以計算這群體的平均數體的平均數,標準差標準差,中位數中位數,四分位數等等一堆量四分位數等等一堆量.現在從現在從這群體去抽樣這群體去抽樣,假設假設n=3.如果不重複如果不重複(抽出後不放回抽出後不放回,或一次或一次抓抓3個個),可能抽到可能抽到(1,2,3),也可能抽到也可能抽到(1,3,6).有有20種不同組種不同組合合.每一種組合就是一個可能的樣本每一種組合就是一個可能的樣本.以以(1,3,6)這樣本來說這樣本來說,樣本平均數
9、是樣本平均數是10/3=3.33;但以但以(1,2,3)這個樣本來說這個樣本來說,樣本平樣本平均數是均數是2.有有20種不同樣本組合種不同樣本組合,就有就有20個或相等或不等的個或相等或不等的樣本平均數樣本平均數.這這20個樣本平均數當做資料個樣本平均數當做資料,它也構成一個分布它也構成一個分布,就是就是從從1,2,3,4,5,6這群體隨機抽取這群體隨機抽取n=3之樣本的樣本平之樣本的樣本平均數抽樣分布均數抽樣分布.(好長的名詞好長的名詞!)這個分布本身也有個標準差這個分布本身也有個標準差.現在問題來了現在問題來了!名詞從這裡開始有點混亂名詞從這裡開始有點混亂.還是簡單地說還是簡單地說.我說我
10、說名詞混亂名詞混亂,是因為有新舊不同說法是因為有新舊不同說法.以前以前如上述樣本平均數抽樣分布的標準差如上述樣本平均數抽樣分布的標準差,就稱為就稱為樣本平均數的標準誤樣本平均數的標準誤.類似地類似地,我們可以有樣本比例的標準誤我們可以有樣本比例的標準誤,樣本標準差的標準誤樣本標準差的標準誤.現在現在新的說法對上述樣本平均數等統計量之抽樣分布的標準差新的說法對上述樣本平均數等統計量之抽樣分布的標準差,就只說是某統計量就只說是某統計量(如樣本平均數如樣本平均數)的標準差的標準差!而因這個理而因這個理論的標準差通常論的標準差通常不知不知;因此會用樣本資料估計因此會用樣本資料估計.統計量的標準差統計量
11、的標準差,只有利用樣本資料估計出來的結果只有利用樣本資料估計出來的結果,才叫才叫標準誤標準誤(thestandarderrorofastatistic).以樣本平均數為統計量之例以樣本平均數為統計量之例.設群體標準差是設群體標準差是,一個樣本的標準差以一個樣本的標準差以s表示表示.則樣本平均數抽樣分布的標準差則樣本平均數抽樣分布的標準差=/n;以前稱以前稱樣本平均數的標準誤樣本平均數的標準誤.而現在把而現在把s/n稱為稱為樣本平均數的標準誤樣本平均數的標準誤,以前稱為以前稱為樣本平均數的標準誤的估計樣本平均數的標準誤的估計或或估計的標準誤估計的標準誤.(3)方差(VAR)方差是描述个体值间的变
12、异,即观察值的离散度,方差较小,表示观察值围绕均数的波动较小,反之亦然。方差计算公式是(4)标准差(SD)描述个体值间的变异,即观察值的离散度,标准差较小,表示观察值围绕均数的波动较小,当观察值呈正态分布或近似正态分布时可将均数及标准差同时写出,如平均值SD,计算公式。(5)标准误(SE)描述统计量的抽样误差,即样本统计量与总体参数的接近程度,标准误小,表示抽样误差小,则统计量较稳定并与参数较接近,可将统计量及其标准误同时写出,如样本均数及其标准误可写为平均值SE,计算公式。(6)变异系数(CV)又称离散系数,即标准差与均数之比用百分数表示,它反映计量资料的变异程度,变异系数无单位。方差方差反
13、映变量的变异程度,但由于取了平方值,使得与原始数据的单位不一样,因此将方差开平方,这个值就是标准差(标准差(standarddeviation,Sd)标准差分为总体标准差()和样本标准差(s)实验中由于我们都是取样测量,所以一般用样本标准差(s)当计算样本平均数的标准差时,结果叫:标准误标准误(standarderror)(这个不好理解)举例说明一下什么时候该用标准差,什么时候该用标准误一个小样方(同样的处理)有5株幼苗,每株高度分别为(单位):22.22.32.42.5这五个数据用样本标准差(s)来计算如果有五个这样的小样方(同样的处理),每个小样方的平均值是22.22.32.42.5那么要用标准误来计算因为上面的值是平均值,源数据可能是下面的(每行一个小样方,平均值对应上面的五个数值),1.8,1.9,2.0,2.1,2.2;2.0,2.1,2.2,2.3,2.4;2.1,2.2,2.3,2.4,2.5;2.2,2.3,2.4,2.5,2.6;2.3,2.4,2.5,2.6,2.7;