《数值变量资料的统计描述..优秀PPT.ppt》由会员分享,可在线阅读,更多相关《数值变量资料的统计描述..优秀PPT.ppt(137页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、回顾回顾:依据是否定量划分依据是否定量划分依据是否定量划分依据是否定量划分,资料被分作不同的类型资料被分作不同的类型资料被分作不同的类型资料被分作不同的类型:数值资料数值资料数值资料数值资料(measurement data):(measurement data):(measurement data):(measurement data):用定量的方法对视察单位进行测量得到的资料用定量的方法对视察单位进行测量得到的资料用定量的方法对视察单位进行测量得到的资料用定量的方法对视察单位进行测量得到的资料,亦亦亦亦称作计量资料。称作计量资料。称作计量资料。称作计量资料。分类变量资料分类变量资料分类变量
2、资料分类变量资料(enumeration data):(enumeration data):(enumeration data):(enumeration data):用定性的方法得到的资料用定性的方法得到的资料用定性的方法得到的资料用定性的方法得到的资料,亦称计数资料。亦称计数资料。亦称计数资料。亦称计数资料。等级资料等级资料等级资料等级资料(ranked data):(ranked data):(ranked data):(ranked data):不能精确测量不能精确测量不能精确测量不能精确测量,仅能依据相对大小分为几个等级。仅能依据相对大小分为几个等级。仅能依据相对大小分为几个等级。仅
3、能依据相对大小分为几个等级。第九章 数值变量资料的统计分析统计学描述:统计学描述:选用恰当统计量结合恰当统计选用恰当统计量结合恰当统计图、表,描述资料的分布规律或数理特征图、表,描述资料的分布规律或数理特征。统计学推断:统计学推断:样本样本总体,统计量总体,统计量参数。参数。分析数据分析数据:第一节第一节 数值变量资料的统计描述数值变量资料的统计描述n n数值变量资料的统计描述,描述什么?数值变量资料的统计描述,描述什么?n n描述的对象:数值变量资料,群体描述的对象:数值变量资料,群体n n群群群群体体体体特特特特征征征征的的的的描描描描述述述述:一一一一般般般般先先先先有有有有一一一一个个
4、个个变变变变量量量量,然然然然后后后后会会会会有有有有一系列的变量值,这些变量值就是一个一系列的变量值,这些变量值就是一个一系列的变量值,这些变量值就是一个一系列的变量值,这些变量值就是一个群体群体群体群体。n n针针针针对对对对这这这这样样样样一一一一个个个个群群群群体体体体,你你你你想想想想知知知知道道道道什什什什么么么么?(共共共共性性性性与与与与特特特特性,有群体就有变异)性,有群体就有变异)性,有群体就有变异)性,有群体就有变异)n n同同同同样样样样是是是是计计计计量量量量资资资资料料料料,但但但但其其其其特特特特点点点点又又又又各各各各不不不不相相相相同同同同(分分分分布布布布问
5、问问问题:正态与非正态,计算均数时也不同)题:正态与非正态,计算均数时也不同)题:正态与非正态,计算均数时也不同)题:正态与非正态,计算均数时也不同)对对对对数数数数值值值值变变变变量量量量资资资资料料料料进进进进行行行行统统统统计计计计分分分分析析析析的的的的一一一一般般般般步步步步骤骤骤骤,是是是是先先先先对对对对视视视视察察察察测测测测量量量量得得得得到到到到的的的的变变变变量量量量值值值值(即即即即视视视视察察察察值值值值)进进进进行行行行统统统统计计计计描描描描述述述述,再再再再在在在在此此此此基基基基础础础础上上上上进进进进行行行行深深深深化化化化的的的的统统统统计计计计推推推推断
6、。断。断。断。统统统统计计计计描描描描述述述述的的的的工工工工作作作作主主主主要要要要是是是是在在在在编编编编制制制制频频频频数数数数表表表表的的的的基基基基础上描述资料的集中位置和离散程度。础上描述资料的集中位置和离散程度。础上描述资料的集中位置和离散程度。础上描述资料的集中位置和离散程度。主要内容n n频数表频数表n n集中趋势集中趋势n n离散趋势离散趋势n n正态分布正态分布n n正常值范围估计正常值范围估计一、数值变量资料的频数分布 数数值值变变量量资资料料进进行行统统计计描描述述须须要要依依据据资资料料的的分分布布类类型型选选择择合合适适的的统统计计指指标标,因因此此首首先先要要通
7、通过过频频数数分分布布表表或或分分布布图图了了解解资资料料的分布特征。的分布特征。(一)编制频数分布表和绘制频数分布图(一)编制频数分布表和绘制频数分布图 频频数数:当当汇汇总总大大量量的的原原始始数数据据时时,把把数数据据按按类类型型分分组组,其其中中每每个个组组的的数数据据个个数数,称为该组的称为该组的频数频数。频频数数表表(频频数数分分布布):表表示示各各组组及及它它们们对应的组频数的表对应的组频数的表,为频数表或为频数表或频数分布频数分布。例例9.1 9.1 某某地地用用随随机机抽抽样样的的方方法法对对140140名名健健康康成成年年男男性性血血清清尿尿素素氮氮(BUNBUN)浓浓度度
8、进进行行检检测测,所所得得数数据据如下,请编制频数表和视察频数分布状况。如下,请编制频数表和视察频数分布状况。6.006.005.285.283.903.905.305.304.204.203.903.905.605.605.665.664.104.104.004.004.504.503.773.774.344.344.304.304.224.225.305.305.135.133.793.794.804.805.205.204.704.702.942.945.905.904.504.502.102.105.605.605.905.902.852.854.904.905.635.633.213
9、.214.664.663.003.005.965.963.453.454.224.223.503.504.234.233.903.903.883.884.244.244.884.882.482.483.403.403.263.263.213.213.603.604.534.532.732.734.154.154.604.604.354.354.964.965.615.615.875.875.015.014.334.335.745.744.874.873.963.963.003.003.933.933.153.155.005.003.443.443.503.502.852.854.874.874
10、.604.603.403.404.794.793.023.026.236.234.984.982.892.895.825.826.306.305.205.205.405.403.003.002.802.804.434.434.504.505.525.526.406.404.864.865.905.904.704.703.473.474.664.664.784.785.705.702.262.264.104.103.703.705.405.403.703.704.374.374.204.206.106.104.804.805.105.105.555.552.972.975.115.113.263
11、.263.043.046.016.014.024.022.692.692.522.525.215.216.556.554.284.284.454.455.155.154.454.455.375.373.803.803.733.734.494.492.442.442.762.763.333.333.013.016.436.433.553.552.632.63组距分组的几个概念组距分组的几个概念1.1.下下 限:一个组的最小值限:一个组的最小值2.2.上上 限:一个组的最大值限:一个组的最大值3.3.组组 距:上限与下限之差距:上限与下限之差4.4.组中值:下限与上限之间的中点值组中值:下限与上限
12、之间的中点值下限值下限值+上限值上限值2 2组中值组中值频数表的编制步骤频数表的编制步骤:(1 1)求极差)求极差(rangerange):即最大值与最小):即最大值与最小值之差,又称为全距。值之差,又称为全距。R=XR=X最大最大-X-X最小最小6.552.10=4.456.552.10=4.45(mmol/lmmol/l)(2 2)确定组数、组段和组距:依据探讨确定组数、组段和组距:依据探讨目的和样本含量目的和样本含量n n 确定分组组数。相邻两确定分组组数。相邻两组段下限值之差称组距,组距组段下限值之差称组距,组距=极差极差/组数。组数。为便利计,组距为极差的特别之一为便利计,组距为极差
13、的特别之一,再略再略加调整。本例拟分加调整。本例拟分1212组。组。4.45/12 =0.37 0.4 4.45/12 =0.37 0.4(mmol/lmmol/l)制制定定频频数数表表的的目目的的是是为为了了简简化化资资料料,显显示示出出数数据据的的分分布布规规律律,故故组组段段数数不不易易过过多多,但但也也不不能能过过少少,否否则则会会掩掩盖盖数数据据的的分分布布规规律。律。(3 3)列出组段列出组段 每个组段的起点为该组下限,终点为上限,上限下限组距,第一组段包含最小值,最终组段包含最大值。各组段不能重叠,即同一个数据不能出现在两个组段内,所以每一个组段都应当是半开半闭区间:下限,上限)
14、第一个组段:2.00,其次个组段:2.40第十二个组段:6.406.80或6.40,6.80*:最终一个组段应当同时标明上限和下限(4 4)列表划记:接受划记法分别将原始资料中各变量值)列表划记:接受划记法分别将原始资料中各变量值在频数表中列出来,并且统计各组段变量值的个数,即在频数表中列出来,并且统计各组段变量值的个数,即频数。频数。14014014014084.29 84.29 84.29 84.29 13.57 13.57 13.57 13.57 15.71 15.71 15.71 15.71 9.29 9.29 9.29 9.29 2222222213131313正正正正正正正正2.8
15、02.802.802.80-100.00 100.00 100.00 100.00-合计合计合计合计100.00 100.00 100.00 100.00 2.14 2.14 2.14 2.14 1401401401403 3 3 36.406.406.406.406.806.806.806.8097.86 97.86 97.86 97.86 4.28 4.28 4.28 4.28 1371371371376 6 6 6正正正正6.006.006.006.0093.57 93.57 93.57 93.57 9.29 9.29 9.29 9.29 13113113113113131313正正正正
16、正正正正5.605.605.605.6010.00 10.00 10.00 10.00 11811811811814141414正正正正正正正正5.205.205.205.2074.29 74.29 74.29 74.29 11.43 11.43 11.43 11.43 10410410410416161616正正正正正正正正4.804.804.804.8062.86 62.86 62.86 62.86 12.86 12.86 12.86 12.86 8888888818181818正正正正正正正正正正正正4.404.404.404.4050.00 50.00 50.00 50.00 7070
17、707019191919正正正正正正正正正正正正4.004.004.004.0036.43 36.43 36.43 36.43 10.71 10.71 10.71 10.71 5151515115151515正正正正正正正正正正正正3.603.603.603.6025.71 25.71 25.71 25.71 10.00 10.00 10.00 10.00 3636363614141414正正正正正正正正3.203.203.203.206.43 6.43 6.43 6.43 5.00 5.00 5.00 5.00 9 9 9 97 7 7 7正正正正2.402.402.402.401.43 1
18、.43 1.43 1.43 1.43 1.43 1.43 1.43 2 2 2 22 2 2 22.002.002.002.00累计频率(累计频率(累计频率(累计频率(%)%)%)%)频率(频率(频率(频率(%)累计频数累计频数累计频数累计频数频数频数频数频数划计划计划计划计尿素氮浓度尿素氮浓度尿素氮浓度尿素氮浓度频数分布图频数分布图(二)、频数表和频数分布图用途(二)、频数表和频数分布图用途1 1 1 1描述频数分布的类型(对称分布、偏态分布)描述频数分布的类型(对称分布、偏态分布)描述频数分布的类型(对称分布、偏态分布)描述频数分布的类型(对称分布、偏态分布)2 2 2 2描述频数分布的特
19、征(集中趋势描述频数分布的特征(集中趋势描述频数分布的特征(集中趋势描述频数分布的特征(集中趋势 离散趋势)离散趋势)离散趋势)离散趋势)3 3 3 3便于发觉一些特大或特小的可疑值便于发觉一些特大或特小的可疑值便于发觉一些特大或特小的可疑值便于发觉一些特大或特小的可疑值4 4 4 4便于进一步做统计分析和处理(加权)便于进一步做统计分析和处理(加权)便于进一步做统计分析和处理(加权)便于进一步做统计分析和处理(加权)(1 1 1 1)对称分布)对称分布)对称分布)对称分布 :若各组段的频数以中心位置左右两侧大体对称,就若各组段的频数以中心位置左右两侧大体对称,就若各组段的频数以中心位置左右两
20、侧大体对称,就若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布认为该资料是对称分布认为该资料是对称分布认为该资料是对称分布1 1描述频数分布的类型(对称分布、偏态分布)描述频数分布的类型(对称分布、偏态分布)对称分布对称分布对称分布(2 2)偏态分布)偏态分布 :n n1 1 1 1)右偏态分布(正偏态分布):右侧的组段)右偏态分布(正偏态分布):右侧的组段)右偏态分布(正偏态分布):右侧的组段)右偏态分布(正偏态分布):右侧的组段数多于左侧的组段数,频数向右侧拖尾。数多于左侧的组段数,频数向右侧拖尾。数多于左侧的组段数,频数向右侧拖尾。数多于左侧的组段数,频数向右侧拖尾。n
21、n2 2 2 2)左偏态分布(负偏态分布)左偏态分布(负偏态分布)左偏态分布(负偏态分布)左偏态分布(负偏态分布):左侧的组段左侧的组段左侧的组段左侧的组段数多于右侧的组段数,频数向左侧拖尾。数多于右侧的组段数,频数向左侧拖尾。数多于右侧的组段数,频数向左侧拖尾。数多于右侧的组段数,频数向左侧拖尾。正偏态分布正偏态分布正偏态分布正偏态(右偏态)正偏态(右偏态)正偏态分布正偏态分布负偏态(左偏态)负偏态(左偏态)负偏态分布负偏态分布负偏态分布负偏态分布负偏态分布频数分布的类型频数分布的类型对称分布对称分布对称分布对称分布对称分布对称分布正偏态分布正偏态分布正偏态分布正偏态分布正偏态分布正偏态分布
22、负偏态分布负偏态分布负偏态分布负偏态分布负偏态分布负偏态分布返回返回2 2描述频数分布的特征描述频数分布的特征图图图图9-19-19-19-1(P P P P288288288288)数据的频数分布特征:)数据的频数分布特征:)数据的频数分布特征:)数据的频数分布特征:数据数据数据数据变异(离散)变异(离散)变异(离散)变异(离散)的范围在的范围在的范围在的范围在 2.002.002.002.00 6.80(mmol/L6.80(mmol/L6.80(mmol/L6.80(mmol/L )数据数据数据数据集中(平均)集中(平均)集中(平均)集中(平均)的组段的组段的组段的组段在在在在 2.80
23、2.802.802.80 6.00(mmol/L6.00(mmol/L6.00(mmol/L6.00(mmol/L )之间,尤以组段的人数之间,尤以组段的人数之间,尤以组段的人数之间,尤以组段的人数 3.603.603.603.60 5.205.205.205.20 (mmol/L(mmol/L(mmol/L(mmol/L )最多最多最多最多,且上下组段的频数分布基本对称。且上下组段的频数分布基本对称。且上下组段的频数分布基本对称。且上下组段的频数分布基本对称。返回返回3 3便于发觉一些特大或特小的可疑值便于发觉一些特大或特小的可疑值返回返回二、集中趋势的描述 (:驾驭描述集中趋势指标的概念、
24、计算和应用条件)n n统统统统计计计计上上上上运运运运用用用用平平平平均均均均数数数数这这这这一一一一指指指指标标标标体体体体系系系系来来来来描描描描述述述述一一一一组组组组变变变变量量量量值值值值的集中趋势或平均水平。的集中趋势或平均水平。的集中趋势或平均水平。的集中趋势或平均水平。n n平平平平均均均均值值值值是是是是一一一一组组组组(群群群群)数数数数据据据据典典典典型型型型或或或或有有有有代代代代表表表表性性性性的的的的值值值值。这这这这个个个个值值值值趋趋趋趋向向向向于于于于落落落落在在在在依依依依据据据据数数数数据据据据大大大大小排列的数据的中心。小排列的数据的中心。小排列的数据的
25、中心。小排列的数据的中心。常用的平均数有常用的平均数有:算术均数(均数)(mean)几何均数(geometric mean)中位数(median)百分位数(percentile)(一)、算术均数算术均数:简称均数(算术均数:简称均数(算术均数:简称均数(算术均数:简称均数(meanmeanmeanmean)定定定定义义义义:是是是是一一一一组组组组变变变变量量量量值值值值之之之之和和和和除除除除以以以以变变变变量量量量值值值值个个个个数数数数所所所所得得得得的的的的商。商。商。商。意意意意义义义义:一一一一组组组组呈呈呈呈对对对对称称称称分分分分布布布布的的的的视视视视察察察察值值值值在在在在
26、数数数数量量量量上上上上的的的的平平平平均均均均水水水水平。平。平。平。应用:正态分布(或近似正态或对称分布)资料。应用:正态分布(或近似正态或对称分布)资料。应用:正态分布(或近似正态或对称分布)资料。应用:正态分布(或近似正态或对称分布)资料。总体均数总体均数总体均数总体均数:样本均数样本均数样本均数样本均数:1、计算方法(1 1)干脆计算法)干脆计算法 公式公式:例例例例9-2 9-2 9-2 9-2 某某某某班班班班级级级级中中中中10101010名名名名女女女女孩孩孩孩身身身身高高高高(cmcmcmcm)的的的的测测测测量量量量值值值值分分分分别别别别为为为为:132.4132.41
27、32.4132.4,151.3151.3151.3151.3,126.8126.8126.8126.8,138.1138.1138.1138.1,146.6146.6146.6146.6,139.5139.5139.5139.5,154.2154.2154.2154.2,147.5147.5147.5147.5,148.1148.1148.1148.1,137.6137.6137.6137.6,求算术平均数。,求算术平均数。,求算术平均数。,求算术平均数。=(132.4+151.3+126.8+138.1+146.6+139.5+154.2+147.5+148.1+=(132.4+151.3+
28、126.8+138.1+146.6+139.5+154.2+147.5+148.1+=(132.4+151.3+126.8+138.1+146.6+139.5+154.2+147.5+148.1+=(132.4+151.3+126.8+138.1+146.6+139.5+154.2+147.5+148.1+137.6)/10=142.2(cm)137.6)/10=142.2(cm)137.6)/10=142.2(cm)137.6)/10=142.2(cm)(2)加权法(利用频数表)公式公式公式公式:k k:频数表的组段数:频数表的组段数 f f:频数:频数 :组中值,其中:组中值,其中i i=
29、1,2,k k。组段组段组段组段频数频数频数频数f fi i组中值组中值组中值组中值x xi if fi ix xi if fi ix xi i2 22.002.002.002.002 2 2 22.202.204.404.409.689.682.402.402.402.407 7 7 72.602.6018.2018.2047.3247.322.802.802.802.80131313133.003.0039.0039.00117.00117.003.203.203.203.20141414143.403.4047.6047.60161.84161.843.603.603.603.60151
30、515153.803.8057.0057.00216.60216.604.004.004.004.00191919194.204.2079.8079.80335.16335.164.404.404.404.40181818184.604.6082.8082.80380.88380.884.804.804.804.80161616165.005.0080.0080.00400.00400.005.205.205.205.20141414145.405.4075.6075.60408.24408.245.605.605.605.60131313135.805.8075.4075.40437.324
31、37.326.006.006.006.006 6 6 66.206.2037.2037.20230.64230.646.406.406.406.406.806.806.806.803 3 3 36.606.6019.8019.80130.68130.68合计合计合计合计140 140 140 140(f fi i)616.80(616.80(f fi ix xi i)2875.362875.36表表9-3 1409-3 140名成年男子血清名成年男子血清BUNBUN浓度浓度(mmol/L)(mmol/L)均数与标准差计算用表均数与标准差计算用表(二二)、几何均数(几何均数(geometric
32、mean)uu定义:用定义:用G G 表示,是将表示,是将n n个视察值个视察值x x的乘积再开的乘积再开n n次次方的方根(或各视察值方的方根(或各视察值x x对数值均值的反对数)。对数值均值的反对数)。uu其适用条件是:其适用条件是:uu 当一组视察值为非对称分布且其差距较大时,当一组视察值为非对称分布且其差距较大时,用均数表示其平均水平会受少数特大或特小值影用均数表示其平均水平会受少数特大或特小值影响;响;uu 数值按大小依次排列后,各视察值呈倍数关系数值按大小依次排列后,各视察值呈倍数关系或近似倍数关系。或近似倍数关系。几何均数计算公式:几何均数计算公式:几何均数:变量对数值几何均数:
33、变量对数值的算术均数的反对数。的算术均数的反对数。n计算几何均数的计算几何均数的视察值应大于零视察值应大于零 1.1.干脆法(当视察例数少干脆法(当视察例数少 n50 n100n 中位数为多少?(2 2).频数表计算中位数和百分位数频数表计算中位数和百分位数下限值下限值L L上限值上限值U Ui;fm中位数中位数M M例例 频数表中位数的计算频数表中位数的计算血糖血糖血糖血糖(mol/L)(mol/L)(mol/L)(mol/L)组段组段组段组段组中值组中值组中值组中值()频数频数频数频数(f)(f)(f)(f)累计频数(累计频数(累计频数(累计频数(ffff)频率频率频率频率(%)(%)(%
34、)(%)累计频率累计频率累计频率累计频率(%)(%)(%)(%)3.603.603.603.603.70 3.70 3.70 3.70 3 3 3 3 3 3 3 32.27 2.27 2.27 2.27 2.27 2.27 2.27 2.27 3.803.803.803.803.90 3.90 3.90 3.90 3 3 3 3 6 6 6 6 2.27 2.27 2.27 2.27 4.55 4.55 4.55 4.55 4.004.004.004.004.10 4.10 4.10 4.10 8 8 8 8 14 14 14 14 6.06 6.06 6.06 6.06 10.61 10.
35、61 10.61 10.61 4.204.204.204.204.30 4.30 4.30 4.30 23 23 23 23 37 37 37 37 17.42 17.42 17.42 17.42 28.03 28.03 28.03 28.03 4.404.404.404.404.50 4.50 4.50 4.50 24 24 24 24 61 61 61 61 18.18 18.18 18.18 18.18 46.21 46.21 46.21 46.21 4.604.604.604.604.70 4.70 4.70 4.70 25 25 25 25 86 86 86 86 18.94 18.
36、94 18.94 18.94 65.15 65.15 65.15 65.15 4.804.804.804.804.90 4.90 4.90 4.90 20 20 20 20 106 106 106 106 15.15 15.15 15.15 15.15 80.30 80.30 80.30 80.30 5.005.005.005.005.10 5.10 5.10 5.10 12 12 12 12 118 118 118 118 9.09 9.09 9.09 9.09 89.39 89.39 89.39 89.39 5.205.205.205.205.30 5.30 5.30 5.30 10 10
37、 10 10 128 128 128 128 7.58 7.58 7.58 7.58 96.97 96.97 96.97 96.97 5.405.405.405.405.605.605.605.605.50 5.50 5.50 5.50 4 4 4 4 132 132 132 132 3.03 3.03 3.03 3.03 100.00 100.00 100.00 100.00 合计合计合计合计132(fi)132(fi)132(fi)132(fi)100.00 100.00 100.00 100.00 n n4.60+(0.20/25)*132/2-61=4.644.60+(0.20/25)
38、*132/2-61=4.64 百分位数示意图百分位数示意图(二)百分位数(二)百分位数(percentile)n n把一组数据从小到把一组数据从小到大排列,分成大排列,分成100100等份,各等份含等份,各等份含1%1%的视察值,分割界的视察值,分割界限上的数值就是百限上的数值就是百分位数。分位数。n中位数是第50百分位数,用P50表示。公式:公式:n n 当 时,公式(9-7)即为中位数的计算公式:血铅(血铅(血铅(血铅(umol/lumol/l)频数频数频数频数f f累计频数累计频数累计频数累计频数 fi fi累计频数(累计频数(累计频数(累计频数(%)0 0222222226.476.4
39、70.250.253636585817.0617.060.500.502323818123.8223.820.750.75424212312336.1836.181.001.00414116416448.2448.241.251.25555521921964.4164.411.501.50363625525575751.751.75282828328383.2483.242.002.00151529829887.6587.652.252.25242432232294.7194.712.502.506 632832896.4796.472.752.759 933733799.1299.123.0
40、03.003.253.253 3340340100100例例 9.79.7 为了解本地儿童体内铅负荷的现状,某市儿保所为了解本地儿童体内铅负荷的现状,某市儿保所20062006年以随机抽年以随机抽样的方法调查了该市样的方法调查了该市340340名名7 7岁以下儿童的血铅含量,试计算该资料的中位岁以下儿童的血铅含量,试计算该资料的中位数和数和P P2525、P P7575、P P9595三种平均数的特点vv算术均数:通常被认为是最佳集中趋势的度量值。假如算术均数:通常被认为是最佳集中趋势的度量值。假如算术均数:通常被认为是最佳集中趋势的度量值。假如算术均数:通常被认为是最佳集中趋势的度量值。假如
41、资料视察值含有少数极端数值(相对的说特大或特小值)资料视察值含有少数极端数值(相对的说特大或特小值)资料视察值含有少数极端数值(相对的说特大或特小值)资料视察值含有少数极端数值(相对的说特大或特小值)或资料呈偏态分布,算术均数就变得不稳定而失去代表或资料呈偏态分布,算术均数就变得不稳定而失去代表或资料呈偏态分布,算术均数就变得不稳定而失去代表或资料呈偏态分布,算术均数就变得不稳定而失去代表性。性。性。性。正态分布正态分布正态分布正态分布vv几何均数一般只适宜于等比级数资料。对于这类资料,几何均数一般只适宜于等比级数资料。对于这类资料,几何均数一般只适宜于等比级数资料。对于这类资料,几何均数一般
42、只适宜于等比级数资料。对于这类资料,用几何均数反映集中趋势比算术均数或中位数更合适。用几何均数反映集中趋势比算术均数或中位数更合适。用几何均数反映集中趋势比算术均数或中位数更合适。用几何均数反映集中趋势比算术均数或中位数更合适。vv中位数不受其前后其他数值(特殊是极端值)的影响。中位数不受其前后其他数值(特殊是极端值)的影响。中位数不受其前后其他数值(特殊是极端值)的影响。中位数不受其前后其他数值(特殊是极端值)的影响。但假如数据呈明显不同且差异很大,这时中位数可能不但假如数据呈明显不同且差异很大,这时中位数可能不但假如数据呈明显不同且差异很大,这时中位数可能不但假如数据呈明显不同且差异很大,
43、这时中位数可能不适宜作为集中趋势的度量值了。适宜作为集中趋势的度量值了。适宜作为集中趋势的度量值了。适宜作为集中趋势的度量值了。偏态分布偏态分布偏态分布偏态分布反反反反映映映映集集集集中中中中趋趋趋趋势势势势的的的的指指指指标标标标(平平平平均均均均数数数数),表表表表示示示示一一一一组组组组视视视视察察察察值值值值的的的的平平平平均均均均水水水水及及及及集集集集中中中中特特特特性性性性,并并并并可可可可作作作作为为为为总总总总体体体体的的的的一一一一个个个个代代代代表表表表值值值值加加加加以以以以应应应应用用用用。但但但但是它没有表达其所代表的总体中各个个体之间的差异。是它没有表达其所代表的
44、总体中各个个体之间的差异。是它没有表达其所代表的总体中各个个体之间的差异。是它没有表达其所代表的总体中各个个体之间的差异。统统统统计计计计学学学学中中中中把把把把个个个个体体体体间间间间的的的的差差差差异异异异称称称称为为为为变变变变异异异异性性性性(variationvariationvariationvariation)。所所所所谓谓谓谓变变变变异异异异性性性性是是是是指指指指在在在在同同同同质质质质条条条条件件件件下下下下的的的的视视视视察察察察单单单单位位位位,其其其其同同同同一一一一标标标标记记记记的的的的数数数数据间的差异性。据间的差异性。据间的差异性。据间的差异性。用用用用以以以
45、以描描描描述述述述一一一一组组组组数数数数值值值值变变变变量量量量资资资资料料料料视视视视察察察察值值值值之之之之间间间间参参参参差差差差不不不不齐齐齐齐的的的的程程程程度度度度,即离散程度或变异度的指标,称为离散指标或变异指标。即离散程度或变异度的指标,称为离散指标或变异指标。即离散程度或变异度的指标,称为离散指标或变异指标。即离散程度或变异度的指标,称为离散指标或变异指标。三、离散趋势的描述盘编号盘编号盘编号盘编号甲甲甲甲乙乙乙乙丙丙丙丙1 1 1 15605605605605205205205205105105105102 2 2 2540540540540510510510510505
46、5055055053 3 3 35005005005005005005005005005005005004 4 4 44604604604604904904904904954954954955 5 5 5440440440440480480480480490490490490合计合计合计合计250025002500250025002500250025002500250025002500均数均数均数均数500500500500500500500500500500500500 例:设甲、乙、丙三人,采每人的耳垂血,然后作红例:设甲、乙、丙三人,采每人的耳垂血,然后作红细胞计数,每人数细胞计数,每人
47、数5 5个计数盘,得结果如下(万个计数盘,得结果如下(万/mm/mm3 3)甲乙丙常用统计指标:常用统计指标:n n全距全距全距全距(range)(range)n n四分位数间距四分位数间距四分位数间距四分位数间距(quartile intervalquartile interval)n n方差和标准差方差和标准差方差和标准差方差和标准差(variance&standard deviationvariance&standard deviation)n n变异系数变异系数变异系数变异系数(CV coefficient of variationCV coefficient of variation
48、)n n全距,全距,用用R R表示:即一组变量值最大值与最小值之表示:即一组变量值最大值与最小值之差,亦称极差。对于书中例差,亦称极差。对于书中例9-19-1数据,有数据,有简洁,但仅利用了两端点值,稳定性差。简洁,但仅利用了两端点值,稳定性差。(一一)全距(全距(RangeRange)R6.552.10=4.45(mmol/l)R R越大,变异度越大越大,变异度越大越大,变异度越大越大,变异度越大;R R越小,变异度越小。越小,变异度越小。越小,变异度越小。越小,变异度越小。(二二)四分位数间距(四分位数间距(quartile range)uu四分位数间距,用四分位数间距,用Q Q表示,将一
49、组资料全部变量值表示,将一组资料全部变量值由小到大排序后,分成四个数目相等的段落,上四由小到大排序后,分成四个数目相等的段落,上四分位数和下四分位数之差就是:分位数和下四分位数之差就是:uu公式:公式:Q=Q=uu下四分位数:下四分位数:uu上四分位数:上四分位数:意意义义:四四分分位位数数相相当当于于中中间间一一半半变变量量值值的的极极差差,适用于偏态资料或两端无确定数据的资料适用于偏态资料或两端无确定数据的资料优点:与极差相比,不受两端最大值,最小值的优点:与极差相比,不受两端最大值,最小值的影响,比较稳定影响,比较稳定缺点:没有考虑到每一个具体变量值的变异程度缺点:没有考虑到每一个具体变
50、量值的变异程度vv全距和四分位数间距都未全面考虑视察值的变异全距和四分位数间距都未全面考虑视察值的变异全距和四分位数间距都未全面考虑视察值的变异全距和四分位数间距都未全面考虑视察值的变异状况,为了克服该缺点,需计算总体中每个视察状况,为了克服该缺点,需计算总体中每个视察状况,为了克服该缺点,需计算总体中每个视察状况,为了克服该缺点,需计算总体中每个视察值值值值x x x x与总体均数与总体均数与总体均数与总体均数的差值(的差值(的差值(的差值(x-x-x-x-),称为离均差。),称为离均差。),称为离均差。),称为离均差。(三)、方差(60-72)(66-72)(72-72)(78-72)(8