数值变量资料的统计描述...ppt

上传人:得****1 文档编号:77213196 上传时间:2023-03-13 格式:PPT 页数:137 大小:2.63MB
返回 下载 相关 举报
数值变量资料的统计描述...ppt_第1页
第1页 / 共137页
数值变量资料的统计描述...ppt_第2页
第2页 / 共137页
点击查看更多>>
资源描述

《数值变量资料的统计描述...ppt》由会员分享,可在线阅读,更多相关《数值变量资料的统计描述...ppt(137页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、回顾回顾:根据是否定量划分根据是否定量划分根据是否定量划分根据是否定量划分,资料被分作不同的类型资料被分作不同的类型资料被分作不同的类型资料被分作不同的类型:n数值资料数值资料(measurement data):(measurement data):用定量的方法对观察单位进行测量得到的资料用定量的方法对观察单位进行测量得到的资料用定量的方法对观察单位进行测量得到的资料用定量的方法对观察单位进行测量得到的资料,亦亦亦亦称作称作称作称作计量资料计量资料计量资料计量资料。n分类变量资料分类变量资料(enumeration data):(enumeration data):用定性的方法得到的资料用定

2、性的方法得到的资料用定性的方法得到的资料用定性的方法得到的资料,亦称计数资料。亦称计数资料。亦称计数资料。亦称计数资料。n等级资料等级资料(ranked data):(ranked data):不能精确测量不能精确测量不能精确测量不能精确测量,仅能根据相对大小分为几个等级。仅能根据相对大小分为几个等级。仅能根据相对大小分为几个等级。仅能根据相对大小分为几个等级。第九章 数值变量资料的统计分析统计学描述:统计学描述:选用恰当统计量结合恰当统计选用恰当统计量结合恰当统计图、表,描述资料的分布规律或数理特征图、表,描述资料的分布规律或数理特征。统计学推断:统计学推断:样本样本总体,统计量总体,统计量

3、参数。参数。分析数据分析数据:第一节第一节 数值变量资料的统计描述数值变量资料的统计描述n n数值变量资料的统计描述,描述什么?数值变量资料的统计描述,描述什么?n n描述的对象:数值变量资料,群体描述的对象:数值变量资料,群体n n群群群群体体体体特特特特征征征征的的的的描描描描述述述述:一一一一般般般般先先先先有有有有一一一一个个个个变变变变量量量量,然然然然后后后后会会会会有有有有一系列的变量值,这些变量值就是一个一系列的变量值,这些变量值就是一个一系列的变量值,这些变量值就是一个一系列的变量值,这些变量值就是一个群体群体群体群体。n n针针针针对对对对这这这这样样样样一一一一个个个个群

4、群群群体体体体,你你你你想想想想知知知知道道道道什什什什么么么么?(共共共共性性性性与与与与特特特特性,有群体就有变异)性,有群体就有变异)性,有群体就有变异)性,有群体就有变异)n n同同同同样样样样是是是是计计计计量量量量资资资资料料料料,但但但但其其其其特特特特点点点点又又又又各各各各不不不不相相相相同同同同(分分分分布布布布问问问问题:正态与非正态,计算均数时也不同)题:正态与非正态,计算均数时也不同)题:正态与非正态,计算均数时也不同)题:正态与非正态,计算均数时也不同)对对数数值值变变量量资资料料进进行行统统计计分分析析的的一一般般步步骤骤,是是先先对对观观察察测测量量得得到到的的

5、变变量量值值(即即观观察察值值)进进行行统统计计描描述述,再再在在此此基基础础上上进进行行深深入入的的统统计计推推断断。统统计计描描述述的的工工作作主主要要是是在在编编制制频频数数表表的的基基础上描述资料的础上描述资料的集中位置集中位置和和离散程度离散程度。主要内容n n频数表频数表n n集中趋势集中趋势n n离散趋势离散趋势n n正态分布正态分布n n正常值范围估计正常值范围估计一、数值变量资料的频数分布 数数值值变变量量资资料料进进行行统统计计描描述述需需要要根根据据资资料料的的分分布布类类型型选选择择合合适适的的统统计计指指标标,因因此此首首先先要要通通过过频频数数分分布布表表或或分分布

6、图了解资料的分布特征。布图了解资料的分布特征。(一)编制频数分布表和绘制频数分布图 频频数数:当当汇汇总总大大量量的的原原始始数数据据时时,把把数数据据按按类类型型分分组组,其其中中每每个个组组的的数数据据个个数数,称为该组的称为该组的频数频数。频频数数表表(频频数数分分布布):表表示示各各组组及及它它们们对应的组频数的表对应的组频数的表,为频数表或为频数表或频数分布频数分布。例例9.19.1 某某地地用用随随机机抽抽样样的的方方法法对对140140名名健健康康成成年年男男性性血血清清尿尿素素氮氮(BUNBUN)浓浓度度进进行行检检测测,所所得得数数据据如下,请编制频数表和观察频数分布情况。如

7、下,请编制频数表和观察频数分布情况。6.005.283.905.304.203.905.605.664.104.004.503.774.344.304.225.305.133.794.805.204.702.945.904.502.105.605.902.854.905.633.214.663.005.963.454.223.504.233.903.884.244.882.483.403.263.213.604.532.734.154.604.354.965.615.875.014.335.744.873.963.003.933.155.003.443.502.854.874.603.404.

8、793.026.234.982.895.826.305.205.403.002.804.434.505.526.404.865.904.703.474.664.785.702.264.103.705.403.704.374.206.104.805.105.552.975.113.263.046.014.022.692.525.216.554.284.455.154.455.373.803.734.492.442.763.333.016.433.552.63组距分组的几个概念组距分组的几个概念1.1.下下 限:一个组的最小值限:一个组的最小值2.2.上上 限:一个组的最大值限:一个组的最大值3.

9、3.组组 距:上限与下限之差距:上限与下限之差4.4.组中值:下限与上限之间的中点值组中值:下限与上限之间的中点值下限值下限值+上限值上限值2 2组中值组中值频数表的编制步骤频数表的编制步骤:(1 1)求极差)求极差(rangerange):即最大值与最小):即最大值与最小值之差,又称为全距。值之差,又称为全距。R=XR=X最大最大-X-X最小最小6.552.10=4.456.552.10=4.45(mmol/lmmol/l)(2 2)决定组数、组段和组距:决定组数、组段和组距:根据研究根据研究目的和样本含量目的和样本含量n n 确定分组组数。相邻两确定分组组数。相邻两组段下限值之差称组段下限

10、值之差称组距组距,组距组距=极差极差/组数组数。为方便计,组距为极差的十分之一为方便计,组距为极差的十分之一,再略再略加调整。本例拟分加调整。本例拟分1212组。组。4.45/12 =0.37 0.4 4.45/12 =0.37 0.4(mmol/lmmol/l)制制定定频频数数表表的的目目的的是是为为了了简简化化资资料料,显显示示出出数数据据的的分分布布规规律律,故故组组段段数数不不易易过过多多,但但也也不不能能过过少少,否否则则会会掩掩盖盖数数据据的的分分布布规规律。律。(3 3)列出组段列出组段 每个组段的起点为该组下限,终点为上限,上限下限组距,第一组段包含最小值,最后组段包含最大值。

11、各组段不能重叠,即同一个数据不能出现在两个组段内,所以每一个组段都应该是半开半闭区间:下限,上限)第一个组段:2.00,第二个组段:2.40第十二个组段:6.406.80或6.40,6.80*:最后一个组段应该同时标明上限和下限(4 4)列表划记:列表划记:采用划记法分别将原始资料中各变量采用划记法分别将原始资料中各变量值在频数表中列出来,并且统计各组段变量值的个数,值在频数表中列出来,并且统计各组段变量值的个数,即即频数频数。14014014014084.29 84.29 84.29 84.29 13.57 13.57 13.57 13.57 15.71 15.71 15.71 15.71

12、9.29 9.29 9.29 9.29 2222222213131313正正正正正正正正2.802.802.802.80-100.00 100.00 100.00 100.00-合计合计合计合计100.00 100.00 100.00 100.00 2.14 2.14 2.14 2.14 1401401401403 3 3 36.406.406.406.406.806.806.806.8097.86 97.86 97.86 97.86 4.28 4.28 4.28 4.28 1371371371376 6 6 6正正正正6.006.006.006.0093.57 93.57 93.57 93.

13、57 9.29 9.29 9.29 9.29 13113113113113131313正正正正正正正正5.605.605.605.6010.00 10.00 10.00 10.00 11811811811814141414正正正正正正正正5.205.205.205.2074.29 74.29 74.29 74.29 11.43 11.43 11.43 11.43 10410410410416161616正正正正正正正正4.804.804.804.8062.86 62.86 62.86 62.86 12.86 12.86 12.86 12.86 8888888818181818正正正正正正正正正

14、正正正4.404.404.404.4050.00 50.00 50.00 50.00 7070707019191919正正正正正正正正正正正正4.004.004.004.0036.43 36.43 36.43 36.43 10.71 10.71 10.71 10.71 5151515115151515正正正正正正正正正正正正3.603.603.603.6025.71 25.71 25.71 25.71 10.00 10.00 10.00 10.00 3636363614141414正正正正正正正正3.203.203.203.206.43 6.43 6.43 6.43 5.00 5.00 5.0

15、0 5.00 9 9 9 97 7 7 7正正正正2.402.402.402.401.43 1.43 1.43 1.43 1.43 1.43 1.43 1.43 2 2 2 22 2 2 22.002.002.002.00累计频率(累计频率(累计频率(累计频率(%)%)%)%)频率(频率(频率(频率(%)累计频数累计频数累计频数累计频数频数频数频数频数划计划计划计划计尿素氮浓度尿素氮浓度尿素氮浓度尿素氮浓度频数分布图频数分布图(二)、频数表和频数分布图用途(二)、频数表和频数分布图用途1 1 1 1描述频数分布的类型描述频数分布的类型描述频数分布的类型描述频数分布的类型(对称分布(对称分布(对

16、称分布(对称分布、偏态分布)、偏态分布)、偏态分布)、偏态分布)2 2 2 2描述频数分布的特征描述频数分布的特征描述频数分布的特征描述频数分布的特征(集中趋势集中趋势集中趋势集中趋势 离散趋势)离散趋势)离散趋势)离散趋势)3 3 3 3便于发现一些特大或特小的可疑值便于发现一些特大或特小的可疑值便于发现一些特大或特小的可疑值便于发现一些特大或特小的可疑值4 4 4 4便于便于便于便于进一步做统计分析进一步做统计分析进一步做统计分析进一步做统计分析和处理(加权)和处理(加权)和处理(加权)和处理(加权)(1 1 1 1)对称分布)对称分布)对称分布)对称分布 :若各组段的频数以中心位置左右两

17、侧大体对称,就若各组段的频数以中心位置左右两侧大体对称,就若各组段的频数以中心位置左右两侧大体对称,就若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布认为该资料是对称分布认为该资料是对称分布认为该资料是对称分布1 1描述频数分布的类型(对称分布、偏态分布)描述频数分布的类型(对称分布、偏态分布)对称分布对称分布对称分布(2 2)偏态分布)偏态分布 :n n1 1 1 1)右偏态分布(正偏态分布):右侧的组段)右偏态分布(正偏态分布):右侧的组段)右偏态分布(正偏态分布):右侧的组段)右偏态分布(正偏态分布):右侧的组段数多于左侧的组段数,频数向右侧拖尾。数多于左侧的组段数,频数

18、向右侧拖尾。数多于左侧的组段数,频数向右侧拖尾。数多于左侧的组段数,频数向右侧拖尾。n2 2)左偏态分布(负偏态分布)左偏态分布(负偏态分布):左侧的组段左侧的组段数多于右侧的组段数,频数向左侧拖尾。数多于右侧的组段数,频数向左侧拖尾。正偏态分布正偏态分布正偏态分布正偏态(右偏态)正偏态(右偏态)正偏态分布正偏态分布负偏态(左偏态)负偏态(左偏态)负偏态分布负偏态分布负偏态分布负偏态分布负偏态分布频数分布的类型频数分布的类型对称分布对称分布对称分布对称分布对称分布对称分布正偏态分布正偏态分布正偏态分布正偏态分布正偏态分布正偏态分布负偏态分布负偏态分布负偏态分布负偏态分布负偏态分布负偏态分布返回

19、返回2 2描述频数分布的特征描述频数分布的特征图图9-19-1(P P288288)数据的频数分布特征:)数据的频数分布特征:数据数据变异(离散)变异(离散)的范围在的范围在 2.002.002.002.00 6.80(mmol/L6.80(mmol/L6.80(mmol/L6.80(mmol/L )数据数据数据数据集中(平均)集中(平均)集中(平均)集中(平均)的组段的组段的组段的组段在在在在 2.802.802.802.80 6.00(mmol/L6.00(mmol/L6.00(mmol/L6.00(mmol/L )之间,尤以组段的人数之间,尤以组段的人数之间,尤以组段的人数之间,尤以组段

20、的人数 3.603.603.603.60 5.205.205.205.20 (mmolmmolmmolmmol/L/L/L/L )最多最多最多最多,且上下组段的频数分布基本对称。且上下组段的频数分布基本对称。且上下组段的频数分布基本对称。且上下组段的频数分布基本对称。返回返回3 3便于发现一些特大或特小的可疑值便于发现一些特大或特小的可疑值返回返回二、集中趋势的描述 (:掌握描述集中趋势指标的概念、计算和应用条件掌握描述集中趋势指标的概念、计算和应用条件掌握描述集中趋势指标的概念、计算和应用条件掌握描述集中趋势指标的概念、计算和应用条件)n n统统统统计计计计上上上上使使使使用用用用平平均均数

21、数这这这这一一一一指指指指标标标标体体体体系系系系来来来来描描描描述述述述一一一一组组组组变变变变量量量量值值值值的集中趋势或平均水平。的集中趋势或平均水平。的集中趋势或平均水平。的集中趋势或平均水平。n平平均均值值是是一一组组(群群)数数据据典典型型或或有有代代表表性性的的值值。这这个个值值趋趋向向于于落落在在根根据据数数据据大大小排列的数据的中心小排列的数据的中心。常用的平均数有常用的平均数有:算术均数(均数)(mean)几何均数(geometric mean)中位数(median)百分位数(percentile)(一)、算术均数算术均数:简称均数(算术均数:简称均数(算术均数:简称均数(

22、算术均数:简称均数(meanmean)n n定义:是一组变量值之和除以变量值个数所得的商。定义:是一组变量值之和除以变量值个数所得的商。n n意义意义:一组一组呈呈对称分布对称分布的观察值在数量上的平均水平。的观察值在数量上的平均水平。n n应用应用:正态分布(或近似正态或对称分布)资料正态分布(或近似正态或对称分布)资料。n n总体均数总体均数:n n样本均数样本均数:1、计算方法(1 1)直接计算法)直接计算法 公式公式:例例例例9-2 9-2 9-2 9-2 某某某某班班班班级级级级中中中中10101010名名名名女女女女孩孩孩孩身身身身高高高高(cmcmcmcm)的的的的测测测测量量量

23、量值值值值分分分分别别别别为为为为:132.4132.4132.4132.4,151.3151.3151.3151.3,126.8126.8126.8126.8,138.1138.1138.1138.1,146.6146.6146.6146.6,139.5139.5139.5139.5,154.2154.2154.2154.2,147.5147.5147.5147.5,148.1148.1148.1148.1,137.6137.6137.6137.6,求算术平均数。,求算术平均数。,求算术平均数。,求算术平均数。=(132.4+151.3+126.8+138.1+146.6+139.5+154

24、.2+147.5+148.1+=(132.4+151.3+126.8+138.1+146.6+139.5+154.2+147.5+148.1+=(132.4+151.3+126.8+138.1+146.6+139.5+154.2+147.5+148.1+=(132.4+151.3+126.8+138.1+146.6+139.5+154.2+147.5+148.1+137.6)/10=142.2(cm)137.6)/10=142.2(cm)137.6)/10=142.2(cm)137.6)/10=142.2(cm)(2)加权法(利用频数表)公式公式:k k:频数表的组段数:频数表的组段数 f f

25、:频数:频数 :组中值,其中:组中值,其中i i=1,2,k k。组段组段组段组段频数频数频数频数f fi i组中值组中值组中值组中值x xi if fi ix xi if fi ix xi i2 22.002.002.002.002 2 2 22.202.204.404.409.689.682.402.402.402.407 7 7 72.602.6018.2018.2047.3247.322.802.802.802.80131313133.003.0039.0039.00117.00117.003.203.203.203.20141414143.403.4047.6047.60161.84

26、161.843.603.603.603.60151515153.803.8057.0057.00216.60216.604.004.004.004.00191919194.204.2079.8079.80335.16335.164.404.404.404.40181818184.604.6082.8082.80380.88380.884.804.804.804.80161616165.005.0080.0080.00400.00400.005.205.205.205.20141414145.405.4075.6075.60408.24408.245.605.605.605.6013131313

27、5.805.8075.4075.40437.32437.326.006.006.006.006 6 6 66.206.2037.2037.20230.64230.646.406.406.406.406.806.806.806.803 3 3 36.606.6019.8019.80130.68130.68合计合计合计合计140 140 140 140(f fi i)616.80(616.80(f fi ix xi i)2875.362875.36表表9-3 1409-3 140名成年男子血清名成年男子血清BUNBUN浓度浓度(mmolmmol/L)/L)均数与标准差计算用表均数与标准差计算用表(

28、二二)、几何均数(几何均数(geometric mean)uu定义:定义:用用G G 表示,是将表示,是将n n个观察值个观察值x x的乘积再开的乘积再开n n次方的方次方的方根(或各观察值根(或各观察值x x对数值均值的反对数)。对数值均值的反对数)。uu其适用条件是:其适用条件是:当一组观察值为当一组观察值为非对称非对称分布且其差距较大时,用均数表分布且其差距较大时,用均数表示其平均水平会受少数特大或特小值影响;示其平均水平会受少数特大或特小值影响;数值按大小顺序排列后,各观察值呈倍数关系或近似倍数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。数关系。几何均数计算公式:几何均数计算

29、公式:几何均数:变量对数值几何均数:变量对数值的算术均数的反对数。的算术均数的反对数。n计算几何均数的计算几何均数的观察值应大于零观察值应大于零 1.1.直接法直接法(当观察例数少(当观察例数少(当观察例数少(当观察例数少 n50 n50 n50 n100n 中位数为多少?(2 2).频数表计算中位数和百分位数频数表计算中位数和百分位数下限值下限值L L上限值上限值U Ui;fm中位数中位数M M例例 频数表中位数的计算频数表中位数的计算血糖血糖(mol/L)(mol/L)组段组段组中值组中值()频数频数(f)(f)累计频数(累计频数(ff)频率频率(%)(%)累计频率累计频率(%)(%)3.

30、603.603.70 3.70 3 3 3 32.27 2.27 2.27 2.27 3.803.803.90 3.90 3 3 6 6 2.27 2.27 4.55 4.55 4.004.004.10 4.10 8 8 14 14 6.06 6.06 10.61 10.61 4.204.204.30 4.30 23 23 37 37 17.42 17.42 28.03 28.03 4.404.404.50 4.50 24 24 61 61 18.18 18.18 46.21 46.21 4.604.604.70 4.70 25 25 86 86 18.94 18.94 65.15 65.15

31、 4.804.804.90 4.90 20 20 106 106 15.15 15.15 80.30 80.30 5.005.005.10 5.10 12 12 118 118 9.09 9.09 89.39 89.39 5.205.205.30 5.30 10 10 128 128 7.58 7.58 96.97 96.97 5.405.405.605.605.50 5.50 4 4 132 132 3.03 3.03 100.00 100.00 合计合计132(fi)132(fi)100.00 100.00 n n4.60+(0.20/25)*132/2-61=4.644.60+(0.20

32、/25)*132/2-61=4.64 百分位数示意图百分位数示意图(二)百分位数(二)百分位数(percentile)n n把一组数据从小到把一组数据从小到大排列,分成大排列,分成100100等份,各等份含等份,各等份含1%1%的观察值,分割界的观察值,分割界限上的数值就是百限上的数值就是百分位数。分位数。n中位数是第50百分位数,用P50表示。公式:公式:n n 当 时,公式(9-7)即为中位数的计算公式:血铅(血铅(umol/l)频数频数f累计频数累计频数fi累计频数(累计频数(%)022226.470.25365817.060.50238123.820.754212336.181.004

33、116448.241.255521964.411.5036255751.752828383.242.001529887.652.252432294.712.50632896.472.75933799.123.003.253340100例例 9.79.7 为了解本地儿童体内铅负荷的现状,某市儿保所为了解本地儿童体内铅负荷的现状,某市儿保所20062006年以随机抽年以随机抽样的方法调查了该市样的方法调查了该市340340名名7 7岁以下儿童的血铅含量,试计算该资料的中位岁以下儿童的血铅含量,试计算该资料的中位数和数和P P2525、P P7575、P P9595三种平均数的特点vv算术均数:算术

34、均数:算术均数:算术均数:通常被认为是最佳集中趋势的度量值。如果通常被认为是最佳集中趋势的度量值。如果通常被认为是最佳集中趋势的度量值。如果通常被认为是最佳集中趋势的度量值。如果资料观察值含有少数极端数值(相对的说特大或特小值)资料观察值含有少数极端数值(相对的说特大或特小值)资料观察值含有少数极端数值(相对的说特大或特小值)资料观察值含有少数极端数值(相对的说特大或特小值)或资料呈偏态分布,算术均数就变得不稳定而失去代表或资料呈偏态分布,算术均数就变得不稳定而失去代表或资料呈偏态分布,算术均数就变得不稳定而失去代表或资料呈偏态分布,算术均数就变得不稳定而失去代表性。性。性。性。正态分布正态分

35、布正态分布正态分布vv几何均数几何均数几何均数几何均数一般只适宜于一般只适宜于一般只适宜于一般只适宜于等比级数等比级数等比级数等比级数资料。对于这类资料,资料。对于这类资料,资料。对于这类资料,资料。对于这类资料,用几何均数反映集中趋势比算术均数或中位数更合适。用几何均数反映集中趋势比算术均数或中位数更合适。用几何均数反映集中趋势比算术均数或中位数更合适。用几何均数反映集中趋势比算术均数或中位数更合适。vv中位数中位数中位数中位数不受其前后其他数值(特别是极端值)的影响。不受其前后其他数值(特别是极端值)的影响。不受其前后其他数值(特别是极端值)的影响。不受其前后其他数值(特别是极端值)的影响

36、。但如果数据呈明显不同且差异很大,这时中位数可能不但如果数据呈明显不同且差异很大,这时中位数可能不但如果数据呈明显不同且差异很大,这时中位数可能不但如果数据呈明显不同且差异很大,这时中位数可能不适宜作为集中趋势的度量值了。适宜作为集中趋势的度量值了。适宜作为集中趋势的度量值了。适宜作为集中趋势的度量值了。偏态分布偏态分布偏态分布偏态分布反反反反映映映映集集集集中中中中趋趋趋趋势势势势的的的的指指指指标标标标(平平平平均均均均数数数数),表表表表示示示示一一一一组组组组观观观观察察察察值值值值的的的的平平平平均均均均水水水水及及及及集集集集中中中中特特特特性性性性,并并并并可可可可作作作作为为为

37、为总总总总体体体体的的的的一一一一个个个个代代代代表表表表值值值值加加加加以以以以应应应应用用用用。但但但但是它没有表达其所代表的是它没有表达其所代表的是它没有表达其所代表的是它没有表达其所代表的总体中各个个体之间的差异总体中各个个体之间的差异总体中各个个体之间的差异总体中各个个体之间的差异。统统统统计计计计学学学学中中中中把把把把个个个个体体体体间间间间的的的的差差差差异异异异称称称称为为为为变变变变异异异异性性性性(variationvariation)。所所所所谓谓谓谓变变变变异异异异性性性性是是是是指指指指在在在在同同同同质质质质条条条条件件件件下下下下的的的的观观观观察察察察单单单单

38、位位位位,其其其其同同同同一一一一标标标标志志志志的的的的数数数数据间的差异性。据间的差异性。据间的差异性。据间的差异性。用用用用以以以以描描描描述述述述一一一一组组组组数数数数值值值值变变变变量量量量资资资资料料料料观观观观察察察察值值值值之之之之间间间间参参参参差差差差不不不不齐齐齐齐的的的的程程程程度度度度,即离散程度或变异度的指标,称为即离散程度或变异度的指标,称为即离散程度或变异度的指标,称为即离散程度或变异度的指标,称为离散指标或变异指标离散指标或变异指标。三、离散趋势的描述盘编号盘编号盘编号盘编号甲甲甲甲乙乙乙乙丙丙丙丙1 1 1 156056056056052052052052

39、05105105105102 2 2 25405405405405105105105105055055055053 3 3 35005005005005005005005005005005005004 4 4 44604604604604904904904904954954954955 5 5 5440440440440480480480480490490490490合计合计合计合计250025002500250025002500250025002500250025002500均数均数均数均数500500500500500500500500500500500500 例:设甲、乙、丙三人,采每人

40、的耳垂血,然后作红例:设甲、乙、丙三人,采每人的耳垂血,然后作红细胞计数,每人数细胞计数,每人数5 5个计数盘,得结果如下(万个计数盘,得结果如下(万/mm/mm3 3)甲乙丙常用统计指标:常用统计指标:n全距全距(range)n四分位数间距四分位数间距(quartile interval)n方差和标准差方差和标准差(variance&standard deviation)n变异系数变异系数(CV coefficient of variation)n n全距,全距,用用R R表示:即一组变量值最大值与最小值之表示:即一组变量值最大值与最小值之差,亦称极差。对于书中例差,亦称极差。对于书中例9-

41、19-1数据,有数据,有简单,但仅利用了两端点值,稳定性差。简单,但仅利用了两端点值,稳定性差。(一一)全距(全距(RangeRange)R6.552.10=4.45(mmol/l)R R越大,变异度越大越大,变异度越大越大,变异度越大越大,变异度越大;R R越小,变异度越小。越小,变异度越小。越小,变异度越小。越小,变异度越小。(二二)四分位数间距(四分位数间距(quartile range)u四分位数间距,用Q表示,将一组资料所有变量值由小到大排序后,分成四个数目相等的段落,上四分位数和下四分位数之差就是:u公式:Q=u下四分位数:u上四分位数:意意义义:四四分分位位数数相相当当于于中中间

42、间一一半半变变量量值值的的极极差差,适用于偏态资料或两端无确定数据的资料适用于偏态资料或两端无确定数据的资料优点:优点:与极差相比,不受两端最大值,最小值的与极差相比,不受两端最大值,最小值的影响,比较稳定影响,比较稳定缺点:缺点:没有考虑到每一个具体变量值的变异程度没有考虑到每一个具体变量值的变异程度vv全距全距全距全距和和和和四分位数间距四分位数间距四分位数间距四分位数间距都未全面考虑观察值的变异都未全面考虑观察值的变异都未全面考虑观察值的变异都未全面考虑观察值的变异情况,为了克服该缺点,需计算总体中每个观察情况,为了克服该缺点,需计算总体中每个观察情况,为了克服该缺点,需计算总体中每个观

43、察情况,为了克服该缺点,需计算总体中每个观察值值值值x x x x与总体均数与总体均数与总体均数与总体均数 的差值的差值的差值的差值(x-x-x-x-),),),),称为称为称为称为离均差离均差离均差离均差。(三)、方差(60-72)(66-72)(72-72)(78-72)(84-72)-12 -6 0 6 12(60-72)2 (66-72)2(72-72)2 (78-72)2(84-72)2 144 36 0 36 14460 66 72 78 8460 66 72 78 84 由于由于由于由于(x-x-x-x-)=0=0=0=0,不能反映变异的大小,不能反映变异的大小,不能反映变异的大

44、小,不能反映变异的大小,而用离均差平方和而用离均差平方和而用离均差平方和而用离均差平方和 (x-x-x-x-)2 2 2 2(sum of sum of deviation from meandeviation from mean)反映。同时还要考虑到观)反映。同时还要考虑到观)反映。同时还要考虑到观)反映。同时还要考虑到观察值个数察值个数察值个数察值个数 N N N N 的影响,用其均数,即得到的影响,用其均数,即得到的影响,用其均数,即得到的影响,用其均数,即得到总体的总体的总体的总体的方差方差方差方差,用,用,用,用 2 2 2 2表示。表示。表示。表示。公式为:公式为:公式为:公式为:

45、总体方差总体方差样本方差样本方差方差(方差(variance)是离均差平方和的均数,反映是离均差平方和的均数,反映一组数据的平均离散水平。一组数据的平均离散水平。l由于在实际工作中,往往得到的样本资料,总体均数由于在实际工作中,往往得到的样本资料,总体均数 是未知是未知的,所以只能用样本均数的,所以只能用样本均数 作为作为 的估计值,即用的估计值,即用 代替代替 ,用样本例数,用样本例数 n n 代替代替N N。但按公式计算的结果。但按公式计算的结果 通常比实际的通常比实际的 低。所以用低。所以用n n来代替来代替 N N 进行校正。得到进行校正。得到样本方差样本方差 自由自由自由自由度度度度

46、离均差平方和离均差平方和 SSSS自由度自由度(degree of freedom)1.一组数据中可以自由取值的数据的个数()2.当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值3.例如,样本有3个数值,即x1=2,x2=4,x3=9,则 =5。当 =5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值(四)标准差(standard deviation)vv方差方差方差方差可以比较全面地反映变量值的变异情况,可以比较全面地反映变量值的变异情况,可以比较全

47、面地反映变量值的变异情况,可以比较全面地反映变量值的变异情况,但但但但其方差的单位是原单位的平方其方差的单位是原单位的平方其方差的单位是原单位的平方其方差的单位是原单位的平方,故引入,故引入,故引入,故引入标准差标准差标准差标准差的的的的概念。概念。概念。概念。vv标准差:标准差:标准差:标准差:将方差开平方,恢复成原度量单位,得将方差开平方,恢复成原度量单位,得将方差开平方,恢复成原度量单位,得将方差开平方,恢复成原度量单位,得到总体的标准差到总体的标准差到总体的标准差到总体的标准差 和样本标准差和样本标准差和样本标准差和样本标准差S。n n样本标准差用样本标准差用 表示表示 ,其度量单位与

48、均数一致,其度量单位与均数一致,所以最常用。所以最常用。离均差平方和离均差平方和SSSS总体标准差 用表示公 式:公 式:标准差的公式还可以写成:利用频数表计算标准差的公式为:离散趋势的描述离均差和离均差和离均差和离均差和离均差平方和离均差平方和离均差平方和离均差平方和总体方差总体方差总体方差总体方差样本方差样本方差样本方差样本方差总体标准差总体标准差总体标准差总体标准差样本标准差样本标准差样本标准差样本标准差 例例 对以下数据:75,76,72,69,66,72,57,68,71,72,用直接法计算标准差。例有例有3 3组同龄男孩的体重组同龄男孩的体重()测量值如下,其平均体重都是测量值如下

49、,其平均体重都是30 30(),试分析其离散程度。试分析其离散程度。分分组组观观察察值值()全距全距全距全距 RRQQS甲甲组组262830323430843.16乙乙组组2427303336301264.74丙丙组组262930313430822.92丙丙丙丙组组*乙乙乙乙组组*甲甲甲甲组组*体重体重体重体重232324242525262627272828292930303131323233333434353536363737()血糖血糖(mol/L)(mol/L)组段组段频数频数()()组中值组中值()3.603.603 3 3.70 3.70 11.10 11.10 41.07 41.0

50、7 3.803.803 3 3.90 3.90 11.70 11.70 45.63 45.63 4.004.008 8 4.10 4.10 32.80 32.80 134.48 134.48 4.204.2023 23 4.30 4.30 98.90 98.90 425.27 425.27 4.404.4024 24 4.50 4.50 108.00 108.00 486.00 486.00 4.604.6025 25 4.70 4.70 117.50 117.50 552.25 552.25 4.804.8020 20 4.90 4.90 98.00 98.00 480.20 480.20

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁