《信赖区间与信心水准解读.ppt》由会员分享,可在线阅读,更多相关《信赖区间与信心水准解读.ppt(72页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、信賴區間與信心水準的解讀一、從常態分配談起國文英文數學物理化學生物平均A生85976174727276.8班平均63.474.063.061.971.770.867.5標準差11.014.913.111.614.310.19.2為何成績單只要有個人成績加上平均數、標準差,就足夠估計學生大約的名次?例:A生成績(全班40人)由資料可知,A生平均分數距離全班平均分數約個標準差。由68-95-99.7的法則可知,A生的百分等級約為68+(100-68)/2=84,全班排名約為40(100-84)%6名為何可以如此估算?我們假設全班成績分佈為一常態分佈設常態分配的期望值為m、變異數為s2,則常態分配的
2、機率分配函數是標準常態分配標準常態分配累積機率表0zpp上面的標準常態累積機率表,是由平均值為0、標準差為1的標準常態分配機率密度函數(上圖中的f(x)),計算從-到zp 曲線下的面積而得,通常記作F(zp),因此上表可以寫成F(zp)=p。以z=1.96為例,F(1.96)0.975,所以在平均值前後1.96個標準差的機率為0.9750.025=0.95。標準常態分配累積機率表1.96-1.9600.9501.960.9750.025大學聯考的統計資料已知X54.63s13.73某生國文成績為24.7分這個分數距離平均值個標準差。利用常態分配表推知他的百分等級是2.5%,但由大考中心資料得知
3、他實際的百分等級是4%上述兩個例子是用常態分配去近似班級考試分配及大學指考分配,但只是近似,顯然不可能完全正確推算名次。二、信賴區間的簡介某次民意調查發表之記者會特安排在十月四日世界動物日當天,以凸顯對解決流浪狗問題的迫切性,在1111份回收問卷中,其中的一個問題為:您願不願意以實際行動來照顧住家附近的流浪狗您願不願意以實際行動來照顧住家附近的流浪狗/貓貓?願意140(12.6%)不願意971(87.3%)以樣本比例來代表母體的真正比例p合理嗎?願意照顧流浪動物的民眾真的是12.6%嗎?區間估計92年7月19日,某報就成年人對公立大學學費是否太貴的議題進行調查,於20日報導:成功訪問了871位
4、成年人。在百分之九十五的信心水準下,有46%民眾認為學費太貴,抽樣誤差在正負3.3%之內,而該調查是以台灣地區住宅電話為母體作尾數兩位隨機抽樣。這並不代表認為公立大學學費太貴的民眾比例在(0.427,0.493)這個區間範圍內我們每次做抽樣調查時都可以做出一個區間估計,而每次做出區間會涵蓋實際比例的機率為95%。但是,這些區間與95%如何求出?信賴區間的實驗老師為全班每個同學各準備一籤筒,事先不讓學生知道籤筒裡放了幾支籤,內含若干有獎籤,然後做一次實驗:每個同學在籤筒內抽取一支籤,記錄是否為有獎籤後放回,連續抽取20次。記錄內容必為下列表格其中一列:區間公式對照表(n=20)區間半徑=中籤中籤
5、數數中籤比中籤比例例 區間區間半徑半徑左左端點端點右右端點端點100.500.2190.2810.71900.000.0000.0000.000110.550.2180.3320.76810.050.0960.0000.146120.600.2150.3850.81520.100.1310.0000.231130.650.2090.4410.85930.150.1560.0000.306140.700.2010.4990.90140.200.1750.0250.375150.750.1900.5600.94050.250.1900.0600.440160.800.1750.6250.97560
6、.300.2010.0990.501170.850.1560.6941.00070.350.2090.1410.559180.900.1310.7691.00080.400.2150.1850.615190.950.0960.8541.00090.450.2180.2320.668201.000.0001.0001.000舉例:若一學生抽20次得到9次有獎籤,則中籤比例為9/20=0.45,區間半徑為區間為0.45-0.218,0.45+0.218,即0.232,0.6680.60.70.80.91.00.50.40.30.20.10信賴區間圖右圖中,全班40個學生每個人都得到一個區間,如果老
7、師事先知道p=0.6,那麼從圖中可知,有35個區間包含真實的p值。全班40個學生包含p值區間個數的期望值為400.95=38個0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 的公式是如何得來的?首先,1.96的由來是因為在平均值前後1.96個標準差所佔比例約為95%。單獨一次抽籤的標準差是,平均n次抽籤的標準差是。所以是指在p前後1.96個標準
8、差的範圍。以真實中獎機率0.6為例,20次抽籤抽中有獎籤的比率必為0,0.05,0.1,1.0其中之一,舉例:抽中9次的中獎比率為0.45,此事件發生機率為0.071。(上圖左邊第二條綠色長條)上圖將每一種中獎比率與其發生機率作成直方圖,而綠色區域是0.6前後1.96個標準差的區域。現在用常態分配去近似二項分配,每個同學20次抽籤的結果,抽中有獎籤的比率必為圖中x坐標之一,且此比率落在綠色區域的機率為0.95。每個同學20次抽籤抽中有獎籤比率的結果好比是在擲一枚出現正面機率是0.95的銅板,成功擲出正面(抽中有獎籤比率落在綠色區域)的機率是0.95。樣本平均落在區間的樣本點,也就是期望值p會落
9、在區間的樣本點。區間公式對照表(n=50)區間半徑=中籤中籤數數中籤比中籤比例例 區間區間半徑半徑左左端點端點右右端點端點00.00 0.000 0.000 0.000 120.24 0.118 0.122 0.358 10.02 0.039 0.000 0.059 130.26 0.122 0.138 0.382 20.04 0.054 0.000 0.094 140.28 0.124 0.156 0.404 30.06 0.066 0.000 0.126 150.30 0.127 0.173 0.427 40.08 0.075 0.005 0.155 160.32 0.129 0.191
10、0.449 50.10 0.083 0.017 0.183 170.34 0.131 0.209 0.471 60.12 0.090 0.030 0.210 180.36 0.133 0.227 0.493 70.14 0.096 0.044 0.236 190.38 0.135 0.245 0.515 80.16 0.102 0.058 0.262 200.40 0.136 0.264 0.536 90.18 0.106 0.074 0.286 210.42 0.137 0.283 0.557 100.20 0.111 0.089 0.311 220.44 0.138 0.302 0.578
11、 110.22 0.115 0.105 0.335 230.46 0.138 0.322 0.598 中籤中籤數數中籤比中籤比例例 區間區間半徑半徑左左端點端點右右端點端點370.74 0.122 0.618 0.862 240.48 0.138 0.342 0.618 380.76 0.118 0.642 0.878 250.50 0.139 0.361 0.639 390.78 0.115 0.665 0.895 260.52 0.138 0.382 0.658 400.80 0.111 0.689 0.911 270.54 0.138 0.402 0.678 410.82 0.106 0
12、.714 0.926 280.56 0.138 0.422 0.698 420.84 0.102 0.738 0.942 290.58 0.137 0.443 0.717 430.86 0.096 0.764 0.956 300.60 0.136 0.464 0.736 440.88 0.090 0.790 0.970 310.62 0.135 0.485 0.755 450.90 0.083 0.817 0.983 320.64 0.133 0.507 0.773 460.92 0.075 0.845 0.995 330.66 0.131 0.529 0.791 470.94 0.066 0
13、.874 1.000 340.68 0.129 0.551 0.809 480.96 0.054 0.906 1.000 350.70 0.127 0.573 0.827 490.98 0.039 0.941 1.000 360.72 0.124 0.596 0.844 501.00 0.000 1.000 1.000 信賴區間圖右圖中,全班40個學生每個人都得到一個區間,如果老師事先知道 p=0.6,那麼從圖中可知,有37個區間包含真實的p值。全班40個學生包含p值區間個數的期望值為400.95=38個n=50時,區間半徑成為因此區間長度變短了。0 0.1 0.2 0.3 0.4 0.5 0
14、.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 區間比較圖 n=20n=500 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 0 0.1 0
15、.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 信賴區間的解讀全班依照這樣的區間公式求出的40個區間,不論n=20或n=50的模擬實驗結果,可以發現並非一定有95%的區間會涵蓋實際值p。全班執行這個實驗,正如40個學生每人都在擲一枚出現正面機率為0.95的硬幣,我們只知道此實驗出現正面個數的期望值為400.95=38個,並不能保證一定出現38個正面。每個學生
16、做出的區間,只可能有兩種情形:包含真實p值,或不包含真實p值。因此一旦做出區間後,並不能說真實p值在此區間的機率為95%n=20與n=50的區間估計的差異因區間半徑等於,所以較大的n值具有較小的區間半徑,也意味著有較佳區間估計的效果。較大的n值會導致此抽樣分配會較近似常態分配。休息一下做個例題某校1000人一起做實驗,每個人均從已知籤筒(內有5支籤,其中2支是有獎籤)抽籤 n次,每次取出一支籤,取出後須放回。下面第一圖是 n=50時,每人抽中有獎籤比率與人數的分佈圖,第二圖則是 n=100的分佈圖。試以此兩圖回答下面三題:下列敘述何者正確:(1)在n=50的實驗裡,一學生抽中有獎籤比率正好是0
17、.4的機率為。答:()一學生抽中有獎籤比率正好是0.4是指他抽50次籤中得有獎籤20次,因此這個事件的機率為。(2)比較n=50與n=100的實驗,發現抽中有獎籤比率在0.280.52(含此兩值)之間的學生人數,在n=100的實驗裡學生人數較多。答:()n=50的實驗裡,抽中有獎籤比率小於0.28的學生數為15+8+3+1+1=28,大於0.52的學生數為15+8+4+2+1=30,因此在0.280.52之間的學生人數為1000-28-30=948。同理,n=100的實驗裡,在0.280.52之間的學生人數為1000-2-1-1-3-1-1=991。(3)在n=50的實驗裡抽中有獎籤比率在0.
18、380.42(含此兩值)之間的學生人數較n=100的實驗裡抽中有獎籤比率在0.380.42(含此兩值)之間的人數多,也就是說n=50的圖形較n=100學生人數分佈更往0.4集中。答:()n=50的實驗裡,抽中有獎籤比率在0.380.42之間的學生人數為111+115+109=335。同理,n=100的實驗裡,在0.380.42之間的學生人數為77+80+81+79+74=391,因此n=100學生人數分佈更往0.4集中。(4)在n=100的實驗裡,全校抽中有獎籤比率在0.310.49(含此兩值)之間的學生數為950人。答:()n=100的實驗裡,抽中有獎籤比率小於0.31的學生數為10+6+4
19、+2+1+1=24,大於0.49的學生數為10+7+4+3+1+1=26,因此在0.310.49之間的學生人數為1000-24-26=950。(5)當n=10000時,我們可以預期抽中有獎籤比率在0.310.49(含此兩值)之間的學生數大於950的機率會很大。答:()n=50的實驗裡,抽中有獎籤比率在0.310.49之間的學生人數為1000-96-96=808,顯示n值越大時,可預期抽中有獎籤比率在0.310.49之間的學生數會越大。提示:此實驗的標準差為若已知信心水準90%的區間半徑公式是(其中是每人抽中有獎籤的比率),我們將n=50的區間半徑列表如下:(其中區間半徑值是四捨五入至小數點後第
20、四位的近似值)利用下表,每個學生均可做出一個信心水準為90%的信賴區間,試問下列敘述何者正確?中獎比率區間半徑中獎比率區間半徑中獎比率區間半徑中獎比率區間半徑中獎比率區間半徑0.02 0.0327 0.22 0.0967 0.42 0.1152 0.62 0.1133 0.82 0.0896 0.04 0.0457 0.24 0.0997 0.44 0.1158 0.64 0.1120 0.84 0.0855 0.06 0.0554 0.26 0.1024 0.46 0.1163 0.66 0.1105 0.86 0.0810 0.08 0.0633 0.28 0.1048 0.48 0.11
21、66 0.68 0.1088 0.88 0.0758 0.10 0.0700 0.30 0.1069 0.50 0.1167 0.70 0.1069 0.90 0.0700 0.12 0.0758 0.32 0.1088 0.52 0.1166 0.72 0.1048 0.92 0.0633 0.14 0.0810 0.34 0.1105 0.54 0.1163 0.74 0.1024 0.94 0.0554 0.16 0.0855 0.36 0.1120 0.56 0.1158 0.76 0.0997 0.96 0.0457 0.18 0.0896 0.38 0.1133 0.58 0.11
22、52 0.78 0.0967 0.98 0.0327 0.20 0.0933 0.40 0.1143 0.60 0.1143 0.80 0.0933 1.00 0.0000(1)在n=50的實驗裡,抽中有獎籤比率是0.5的學生所做出的區間半徑一定大於其他抽中比率的學生做出的區間半徑。答:()從表中即可看出或由可看出(2)若有一學生抽取50次後抽中有獎籤比率是0.3,那麼90%的信心水準的意義是指,真實中獎機率0.4落在此學生得到的信賴區間內的機率是0.90。答:()雖然該生所做出的區間為0.3-0.1069,0.3+0.1069,即0.1931,0.4069,已經知道此區間涵蓋真實的中獎機率0
23、.4,因此我們不能再說0.4落在此學生得到的信賴區間內的機率是0.90。(3)90%的信心水準的意義是指全校1000人在n=50的實驗裡,一定會有900人的信賴區間涵蓋真實中獎機率0.4。答:()90%的信心水準的意義是指全校1000人在n=50的實驗裡,在1000個信賴區間中,涵蓋真實中獎機率0.4區間個數的期望值為900個。正如投擲一枚公正銅板1000次,得到正面次數的期望值為500次,但不是一定正好得到500次正面。(4)若在n=50的實驗裡要求信心水準提高時,我們必須將區間半徑增大。答:()要求信心水準提高是指,在期望值前後取更大的區間範圍,才能使抽中有獎籤比率落在此區間的機率變大,這
24、也是說,我們必須將區間半徑增大。舉一例,若信心水準是95%,區間公式須變為。(5)在n=100的實驗裡,因區間半徑較n=50實驗的區間半徑小,所以信心水準隨著下降。答:()這是錯誤的觀念,由於這兩個公式都是指期望值前後1.65個標準差的範圍,此區域占全部約90%,因此信心水準均為90%。從n=50實驗的結果(第一圖)及區間公式表可知,這次實驗每個學生所做的信賴區間可以涵蓋真實中獎機率0.4的人數有個。答:(890個)從區間公式表可知,抽中比率是0.30的區間為0.1931,0.4069,抽中比率是0.50的區間為0.3833,0.6167。再由第一圖知,抽中比率在0.300.50的人數為100
25、0-54-56=890三、簡介中央極限定理首先介紹隨機變數X:定義X的期望值變異數(亦即)舉例:若X 是一中獎機率為p 的二項分配:可得E(X)=p1+(1-p)0=p,Var(X)=p(1-p)2+(1-p)(0-p)2=p(1-p)。Xx1xnpp1pnX1(成功)0(失敗)pp1-p中央極限定理:設X1,Xn 是獨立且具相同分配的隨機變數,其中E(X1)=m,Var(X1)=s2,則當n 時,隨機變數的分配會趨近於標準常態分配,也就是說隨機變數的分配會趨近於標準常態分配討論定理中的隨機變數 前,首先介紹兩個小引理:引理一:若X、Y 是隨機變數且a、b 為常數,則E(X+Y)=E(X)+E
26、(Y)且E(aX+b)=a E(X)+b引理二:若X、Y 是獨立的隨機變數且a、b 為常數,則Var(X+Y)=Var(X)+Var(Y)且Var(aX+b)=a 2 Var(X)計算n次二項分配平均的期望值與標準差比較一般的情形是:已知抽籤的真實中獎機率為p,只要給定正數z,則當n時,p 值落在實驗所得區間的機率會趨近於F(z)-F(-z)此處是指標準常態分配的累積機率函數:此外F(z)-F(-z)的值可化簡成2F(z)-1:若要求信心水準2F(z)-1=0.95,則解出 F(z)=0.975,查下表知z值約為1.96若要求信心水準2F(z)-1=0.90,則解出 F(z)=0.95,查上表
27、知z值約為1.65圖形說明由95%改成90%1.960.9750.9501.6595%1.961.6590%信心水準由95%改成90%95%的信賴區間90%的信賴區間現在要求信心水準2F(z)-1=1-a,解得F(z)=1a/2,查表可得z值,用表示信賴區間為其中(通常我們會將a取成較小的數字)此外,若1-a越大,則區間半徑就越大;而若固定1-a的值,取樣數n越大則區間半徑越小。信心水準為1-a的信賴區間實驗成功了嗎?n=20的實驗中,每個同學所擁有的區間,我們只能知道它涵蓋p的機率是0.928,也就是說,每個同學的區間涵蓋p(成功)的機率是0.928,不涵蓋p(失敗)的機率是0.072。當4
28、0個同學做此實驗時,計算涵蓋p 的區間數正好是38個的機率為,經計算約為0.236!n=50的實驗中,每個同學所擁有的區間,每個同學的區間涵蓋p(成功)的機率是0.941,不涵蓋p(失敗)的機率是0.059。當40個同學做此實驗時,計算涵蓋p 的區間數正好是38個的機率機率為,經計算約為0.269!就算信心水準是0.95,要求涵蓋p 的區間數正好是38個的機率機率為,經計算約為0.278!四、信賴區間與中央極限定理由中央極限定理可知,對獨立且有相同分佈的隨機變數,給定任意正數z,當n 時,(其中 是標準常態分配累積機率函數)上述式子中,事件的涵義是樣本空間中所有滿足樣本平均落在區間的樣本點所成
29、事件。樣本平均落在區間的樣本點,也就是期望值會落在區間的樣本點。民意調查的意義常常在民意調查的報導中有如下的敘述:本項調查是由XX民意調查中心在XX年X月X日進行,以隨機跳號抽樣及電腦輔助電話訪問方式,訪問台灣地區1068位20歲以上的民眾,在95%的信心水準下抽樣誤差為3%。如果這項調查的結果對於候選人A的支持度為32%,候選人B的支持度為30%,這代表候選人A支持度的95%信賴區間為29%,35%,候選人B支持度的95%信賴區間為27%,33%。這兩個區間有很大的重疊,因此選舉結果是有可能發生逆轉,這也是在相同的信心水準下,為何信賴區間的長度(即所謂抽樣誤差)要越小越好,而上面已提供了一個方法提高抽樣的樣本數n。如何得到民意調查的抽樣數 n=1068?因,所以區間半徑。若要求抽樣誤差不超過d,則即。以此例而言,若選擇抽樣誤差d等於0.03,因95%的信心水準下,z0.9751.96,則n1068。但在相同的信心水準下,若選擇抽樣誤差d小於0.01,則n9604。以成本的角度來看,為了讓抽樣誤差從3%減少到1%,與其增加9倍的樣本,不如更謹慎的規劃及更好的抽樣方法來得有效。ByeBye