《资料的整理与表现-统计测量数-第一科大讲课教案.ppt》由会员分享,可在线阅读,更多相关《资料的整理与表现-统计测量数-第一科大讲课教案.ppt(84页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、资料的整理与表现-统计测量数-第一科大 母體平均數i=1NXi=N樣本平均數X=nnxii=1 資料的平衡點資料的平衡點18000200002500027000平均數平均數2800050000 中位數中位數:數值大小順序排列大小順序排列的觀 察值中央的那一個數值眾眾數數(Mode):觀察值中其出現次數出現次數最多最多的的那一個數值四分位數四分位數:將順序資料分成四等分四等分數值的分位數求下列二組資料之中位數與眾數:(I):3,8,9,9,5(II):4,8,6,2Sol:按大小順序排列,找中間位置(I)3,5,8,9,9(II)2,4,6,8 (4+6)/2=5百分位百分位數(Pk):將順序資
2、料均分為一一百等分百等分數值,取第k個等分點將順序資料排列求位置指標 i i=n(k/100)n:觀測值個數觀測值個數 I:非整數非整數 Pk:下一個整數位置值下一個整數位置值 I:整數整數 Pk:(第第i+第第i+1 位置值位置值)/2 Ex:假定某一班級20位學生之統計學成績如下:42 55 66 76 96 80 69 59 46 28 22 44 56 68 78 88 74 63 53 39 計算平均數,中位數,P35,P68Sol:22 28 39 42 44 46 53 55 56 59 63 66 68 69 74 76 78 80 88 96 中位數:(59+63)/2=61
3、P35:i=20 (35/100)=7 為整數取第7與第8兩位置之平均數 (53+55)/2=54P68:i=20 (68/100)=13.6 不為整數取第14位置值69 四分位距四分位距IQR=第第3四分位數第四分位數第1四分位數四分位數 =Q3Q1全距全距R=最大值最小值Ex:病房中的兩個病人,他們一天要測量脈搏三次,結果如下:A:72 75 78 B:48 64 113A=75=B 請問:可否只從平均數據下結論?Ex:兩個學生的各項成績如下:甲:80 76 78 83 83 乙:85 60 95 65 95甲=80=乙請問:可否只從平均數下結論?平均分數相同 能力或表現相同比較兩組數值時
4、,需要考慮每個數值的變異程度變異程度:全距 甲:83-76=7 分 乙:95-60=35 分請問:從全距可否得到?資訊 變異數變異數將所有數據都納入考慮,來測量一組數據的變異程度變異程度,分布分布程度程度,離散程度離散程度,或一致性一致性變異程度變異程度:測量各個數值和平 均數的差距平均絕對離差平均絕對離差:為了避免正負 值相抵消 母體變異數母體變異數 測量原始數值和平均數的相近程度式中:母體平均數,N:母體個數。甲的成績 x x-u (x-u)807678838380-80=076-80=-478-80=-283-80=383-80=3 016 4 9 9變異數:38/5=7.6母體標準差母
5、體標準差樣本標準差樣本標準差平均絕對離差平均絕對離差平均絕對離差平均絕對離差母體:母體:MAD=1NNi=1Xi樣本:樣本:mad=1NNi=1XiX平均絕對離差越大平均絕對離差越大 分散程度越大分散程度越大一組數據資料中的標準差越大,這些數的離散或變異程度越大標準差不只考慮到資料中的最 大數和最小數,資料中的每一個 數都有被列入計算平均數中央數.探討各個數值分佈在平均數的附近用標準差來精確敘述這種離散程度變異數變異數樣本變異數樣本變異數式中:式中:X:樣本均數,樣本均數,n:樣本數樣本數此離差為此離差為 (Xi-X);一般而言一般而言,為未知為未知,以樣以樣本平均數本平均數 X 來推估來推估
6、,故失去一個自由度故失去一個自由度一家銀行有八台自動櫃員機,在1小時中,各機器的使用次數如下:24 31 20 16 35 28 25 29試問每台櫃員機使用次數的平均值和標準差 x x-u (x-u)16 16-26=-10 100 20 20-26=-6 36 24 24-26=-2 425 25-26=-1 128 28-26=2 429 29-26=3 931 31-26=5 25 35 35-26=9 81 Total:260S=260/8=32.5S=5.75每小時每台服務次數 32.5相對差異量數相對差異量數:用來比較用來比較兩種兩種或或 性質不同性質不同,或或單位不同單位不同的
7、資料的資料,或或單位相同單位相同但但平均數相差很大平均數相差很大Ex:兩組測量同一批鋼管長度的觀測值:I:8,9,10,11,12 (公尺公尺)II:800,900,1000,1100,1200(公分)變異數I:2 標準差I:2變異數II:20000 標準差II:100 2柴比氏柴比氏(Chebyshev)定理定理不論資料為何種分配,至少有(11/k)的資料落在距離平均數 k個標準差的範圍內K為大於1的任意數即k1 由平均數和標準差 柴比氏定理柴比氏定理 資料的範圍比例 2根據柴比氏定理柴比氏定理,當k=2時,至少有1-1/22=3/4=75%觀測值落在平均數左右的兩個標準差的區間內.即(x-
8、2s,x+2s)k 區間 落於該區間的比例 1 (x-s,x+s)至少為0 2 (x-2s,x+2s)至少為3/4 or(75%)3 (x-3s,x+3s)至少為8/9 or(89%)標準差的顯著程度標準差的顯著程度若資料為鐘形分配,則有68%的觀察值落在 內,有95%的觀察值落在內,有99%的觀察值落在內 (S為標準差)Ex:隨機抽出200名員工,發現每日支出平均為615元,標準差為135元.(i)利用柴比氏,求每日支出落於(345,885)的區間人數(ii)假設呈對稱分配,試利用經驗法則求出落於(i)區間的人工員數(i)Sol:x =615,s=135(ii)345=615-k*135 8
9、85=615+k*135 k=2根據柴比氏,至少有1-1/22=3/4=75%的員工其每日支出落在(345,885)的區間內,即0.75*200=150個員工(ii)根據經驗法則,約95%的觀測值落在(x-2s,x+2s)的區間.故約200*95%=190個員工每日支出金額在(345,885)之內P:Me所在組的組下界 q-p:Me所在組的組距Fi:Me所在組的組次數 Fi-1:Me前一組的累加次數中位數中位數組別組別 組界組界 次數次數 fi 以下累積次數以下累積次數 Fi 1 2030 f1 F1 2 3040 f2 F2 .i-1 h k fi-1 Fi-1 i p q fi Fi 假設
10、中位數於此組假設中位數於此組 i+1 r s fi+1 Fi+1 Fk=n 內插法內插法 p Fi-1 Me n/2 q Fi Me p n/2-Fi-1 q-p Fi-Fi-1=眾數眾數粗略法眾數粗略法眾數皮爾生眾數皮爾生眾數眾數金氏法眾數 式中:母體變異數與標準差樣本變異數與標準差樣本變異數與標準差四分位數四分位數全部全部資料資料的前的前25%全部全部資料資料的第的第二個二個25%全部全部資料資料的第的第三個三個25%全部全部資料資料 的末的末25%Q1P25 P50 P75Q2 Q3中位數中位數?分位數分位數分組資料的第分組資料的第?分位數分位數 位置指標位置指標 i=n*(k/100)
11、n:總次數總次數 k:第第k個百分位數個百分位數計算以下累積次數計算以下累積次數,確定確定Pk組所在位置組所在位置利用內插法求利用內插法求PkEx:某一班50位學生統計成績次數分配如下:求中位數,第三四分位數與P70 組別組別 組界組界 次數次數 以下累積次數以下累積次數 1 3040 1 1 2 4050 2 3 3 5060 7 10 4 6070 10 20 5 7080 18 38 6 8090 8 46 7 90100 4 50 插入法插入法?-該組下界該組下界?-在組中的在組中的 的臨界值的臨界值 順位順位 =該組的組距該組的組距 該組的總次數該組的總次數母體共變數母體共變數樣本共
12、變數樣本共變數母體相關係數母體相關係數相關係數相關係數顯示出兩個變數的關係或趨勢點分佈圖形.樣本相關係樣本相關係數數2.23 由導出的由導出的,將,將C=0合併合併S:HW1)某研究針對某大學生每晚的睡眠時間進行統計,一個含20位學生的隨機樣本統計結果如下:6,7,5,6,8,4,5,6.5,7,3.5,6,5,6,6,4.5,7.5,3,6,5,7 請求出這組資料的平均數,中位數,眾數,變異數,標準差,及繪製箱圖 HW2)一所大學針對每天學生攝取卡 路里數進行調查.結果得知平均數為1450卡路里,標準差為300卡路里.試問:(a)有多少比例的學生,其每天攝取卡路里數介於8502050間?(b
13、)68%的學生卡路里攝取數落在甚麼區間中?HW3)一所大學對於其學生申請助學金的貸款進行統計,結果如下表:貸款金額 學生人數 畫圖組距:取全部資料的 Max&Min之 difference再除以組數,取 近似值一組資料的次數分配如下,由於受到污染,致使表中A.B二欄字跡不清,試求A、B值組別 組中點(mi)次數(fi)mi*fi020 10 3 302040 30 4 1204060 50 9 4506080 70 A?80100 90 B?Total 40 2480 求A、B值之Solution:3+4+9+A+B=40 A+B=24 =A+B=2430+120+450+70A+90B=24
14、80 =70A+90B=1880 解聯立方程式:A+B=24 70A+90B=1880 70A=980 ,90B=900 A=14 ,B=10職籃聯盟的旗下計有25支籃球隊,其比賽得分記錄:74 72 86 79 74 72 91 84 64 75 63 80 78 95 82 86 77 73 69 72 81 85 92 62 90a.請編製此組資料的次數分配、相對次數b.分配、以下累積和以上累積的次數分配c.b.繪製長條圖與繪製枝葉圖d.c.中位數與標準差聯籃聯盟:a.將資料由小-大 min:62 Max:95 定組距為4組別 次數 相對次數 累積相對次數6064 3 3/25=.12
15、.126569 1 1/25=.04 .167074 6 6/25=.24 .407579 4 4/25=.16 .568084 4 4/25=.16 .72組別 次數 相對次數 累積相對次數8589 3 3/25=.12 .849094 3 3/25=.12 .969599 1 1/25=.04 1.00合計 25 1.00b.長條圖:得分記錄得分記錄(分分)次數次數c.枝葉圖:枝葉圖:依照依照a的組距的組距6 2 3 46*97 2 2 2 3 4 4 7*5 7 8 9 8 0 1 2 48*5 6 69 0 1 29*5某電信局記錄長途電話撥入時間的間隔某電信局記錄長途電話撥入時間的間
16、隔(min)12.6 10.5 5.0 15.3 16.8 9.2 4.2 20.2 27.5 8.9 12.2 18.2 14.5 14.0 12.6 7.8 11.5 5.5 15.5 8.9 a.試將資料整理成試將資料整理成次數次數&相對次數相對次數分配表分配表b.請繪製請繪製枝葉圖枝葉圖,由枝葉圖求,由枝葉圖求Max、min&資料大多集中在資料大多集中在?範圍範圍c.計算變異數與標準差計算變異數與標準差電信局的電信局的solution:a.取取5為單位,將資料由小為單位,將資料由小大,最小:大,最小:4.2 最大:最大:27.5(因有小數點,小心計算因有小數點,小心計算)時間間隔時間間
17、隔(x)次數次數(f)相對次數相對次數 3x8 4 4/20=.2 8x13 8 8/20=.413x18 5 5/20=.2518x23 2 2/20=.1023x28 1 1/20=.05Total 20 1.00b.電信局枝葉圖:以電信局枝葉圖:以0.1(min)為單位為單位 4 2 5 0 5 7 8 8 9 9 9 210 511 5一診所完病人的等待急診時間之資料蒐集(近一個月),等待的時間:(分鐘)2 5 10 12 4 4 5 17 11 8 9 8 12 21 6 8 7 13 8 3請以0為起始時間,並用5 min 為分組寬度 a.列出次數分配表 b.相對次數分配表 c.累
18、積次數分配表 d.繪出直方圖急診等待時間急診等待時間(solution):a.b.等待時間等待時間(x)次數次數 相對次數相對次數0 x5 4 4/20=.2=20%5x10 8 8/20=.4=40%10 x15 5 5/20=.25=25%15x20 2 2/20=.10=10%20 x25 1 1/20=.05=5%Total 20 1.00 100%急診等待時間急診等待時間c.等待時間等待時間(x)次數次數 累計次數累計次數 累積相數次數累積相數次數 0 x5 4 4 .20 5x10 8 12 .6010 x15 5 17 .8515 x20 2 19 .9520 x25 1 20
19、1.00次數分配直方圖:次數分配直方圖:T 時間(分鐘)次數 f觀念題:甲班與乙班成績平均=60分但,甲班成績分佈呈對稱 乙班成績分佈呈右偏試問,那一班及格的人數較多?那一班的中位數較大?有100位學生,統計學的考試平均分數=75,=5試求,介於60分90分有幾位學生?65分85分有幾位學生?60 65 75 906565分:為分:為 x-3x-3(75-3*5=65)(75-3*5=65)9090分:為分:為 x+3x+3(75+3*5=90)(75+3*5=90)按照柴比氏定理,至少有1-321=1-98=89%的學生(89位)由柴比氏定理(用於任何型態)不對稱也可以 x-2s x-s x
20、 x+s x+2sK=2,1-1/k=1-1/4=3/4=75%的觀察值在(x-2s,x+2s)之內K=3,K=4,分組資料的第3四分位數Q3=LQ3+3n/4 FQ3fQ3WQ3式中:LQ3:Q3所在組的組下界,fQ3:Q3所在組的組次數,WQ3:Q3所在組的組距,FQ3:Q3前一組的累加次數分組資料的百分位數Pi=L pi+ni/100 Fpi f piWpi式中:Pi:第i個百分位數,Lpi:Pi所在組的組下界,fpi:Pi所在組的組次數,Wpi:Pi所組的組距,Fpi:Pi前一組的累加次數分組資料的十分位數Di=LDi+ni/10-Fdi fDiWDi式中:Di:第i個十分位數,LDi
21、:Di所在組的組下界,fDi:Di所在組的組次數,WDi:Di所在組的組距,FDi:Di前一組的累加次數試求下列試求下列(a)中位數中位數Me(b)Q1(c)Q3(d)IQR 分組別分組別 x:資料資料 學生學生 累積次數累積次數 3040 30 x40 2 4050 40 x50 3 5060 50 x60 11 6070 60 x70 20 7080 70 x80 32 8090 80 x90 25 90100 90 x100 7 (a)中位數:因為(1/2)100=50,由上表得知,中位數落在第五組(看累積次數)Me-組下界 組距n/2-前一組的累加次數 所在的組次數=Me-70 105
22、0-36 32=Me=50-36 3210+70=74.38(b)Q1:因1/4 100=25,由上表得知,落在第4組 Q1-60 25-16 10 20=Q1=64.5(C)Q3:因3/4 100=75,由上表得知,Q3落在第6組Q3-組下界組距=3n/4-前組的累加次數所在的組次數Q3-8010=2575-68Q3=82.8(d)I.Q.R:Q3-Q1=82.8-64.5=18.3GD#33)設XA為A組的平均成績:80 設XB為B組的平均成績:74 X:全班平均成績:Xi =30XA+20XB =77.6 50 50 設SA表示A組的標準差:6 設SB表示B組的標準差:8 ,S表示全班的
23、標準差50i=1SA2=36Ai2-30XA2 Ai2=193.080 3030i=130i=1SB2=64Bi2-20XB2 Bi2=110.800 2020i=1i=12020Xi2=Ai2+Bi2=193.080+110.080=303.880502030i=1i=1i=1S2=Xi2-50X2=303.880 50*(77.6)2=55.84 50 5050i=1S=55.84 =7.47n=1100135 175 215215=175+4*10 ,175-4*10=135由柴氏定理得知:最多有1/42的報考人數的分數會落入(-,135)(215,),1100*1/16=68.75 最
24、多68人的分數會高於215分,所以考生會錄取 柴氏定理至少有(1-1/k2)的資料會落在距離平均數K個標準差的範圍內最多有(1-1/k2)的資料不會落在距離平均數個個標準差的範圍內或 會落在距離平均數個個標準差的範圍外汽油組界汽油組界 次數次數 0 4 -.54.5 74 5 9 4.59.5 192 10 14 9.514.5 280 15 19 14.519.5 105 20 24 19.524.5 23 25 29 24.529.5 6 求平均數,標準差,中位數a.平均數:X=fiXi=7350 =10.74 n 680i=15b.變異數:S=fiXi2-X2 n-1 =95875 78
25、47.35 =25.63 679nni=1i=1Ex:蒐集17家公司的產品月銷售金額(萬元)48 273 59 247 326 122 451 3224 1598 803 312 825 106 218 236 104 63a)請計算平均數,中位數眾數b)請計算全距,變異數,標準差c)請畫出箱形圖,並指出那幾個點有可能是離群點由小大 48 59 63 104 106 122 218 236 247 273 312 451 803 825 1598 3224Solution:產品月銷售金額:a.平均數=總和各數X=Xi =/17(48+273+.+63)=530(萬元)n中位數:將資料由小大排列
26、,取中間值 Me:17個數,中位數,第個值 247(萬元)眾數:資料出現的次數最多的一個值Mode:不存在(因為資料中,沒有一個數,出現超過一次以上)b.全距:Max-min R:3224-48=3176變異數:S2=(Xi X)2 n-1S2=1/(17-1)(Xi-530)2=636,840標準差:S=S2S=636804 =798 (萬元)c.0 106 247 451 1598 3224 Q1 Me Q2Q1:17*1/4 =4.25 第個值:106Q2:17*2/4=8.5 第個值:247Q3:17*3/4=12.75 第個值:451由箱形圖得知,資料的分配為右偏離群值:1598,3224此课件下载可自行编辑修改,仅供参考!此课件下载可自行编辑修改,仅供参考!感谢您的支持,我们努力做得更好!谢谢感谢您的支持,我们努力做得更好!谢谢