数值变量资料的统计描述1.pptx

上传人:莉*** 文档编号:87337571 上传时间:2023-04-16 格式:PPTX 页数:111 大小:1.25MB
返回 下载 相关 举报
数值变量资料的统计描述1.pptx_第1页
第1页 / 共111页
数值变量资料的统计描述1.pptx_第2页
第2页 / 共111页
点击查看更多>>
资源描述

《数值变量资料的统计描述1.pptx》由会员分享,可在线阅读,更多相关《数值变量资料的统计描述1.pptx(111页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、2023/3/241第一节 数值变量资料频数分布 数值变量资料进行统计描述需要根据资料的数值变量资料进行统计描述需要根据资料的分布类型选择合适的统计指标,因此首先要通分布类型选择合适的统计指标,因此首先要通过频数分布表或分布图了解资料的分布特征。过频数分布表或分布图了解资料的分布特征。一、频数分布表及其制作一、频数分布表及其制作 第1页/共111页2023/3/242例8.1 某地区2002年5558岁健康成人的空腹血糖(mmol/L)测定值如下,试编制频数表和观察频数分布情况。5.175.564.864.874.745.245.514.464.964.824.905.305.225.584.

2、484.804.64.025.165.364.344.244.644.274.254.444.464.624.874.344.905.254.774.855.074.164.664.704.203.954.094.644.335.214.614.985.244.604.254.785.003.603.604.114.614.084.784.264.444.384.44.794.764.924.604.785.034.354.184.684.654.574.274.994.214.894.714.724.414.384.064.794.964.834.454.514.274.504.315.05

3、5.595.595.085.163.744.365.364.645.094.574.464.564.395.244.614.214.964.344.454.864.504.904.454.494.424.684.565.384.344.464.164.984.294.834.273.683.853.864.564.564.555.165.155.16第2页/共111页2023/3/243编制频数分布表的步骤计计算算极极差差编制频数分布表的步骤确确定定组组数数组组距距计计算算频频数数编编制制表表格格第3页/共111页2023/3/244频数表的编制步骤频数表的编制步骤:(1 1)求极差求极差(r

4、angerange):即最大值与最小值之差,又称):即最大值与最小值之差,又称为全距。为全距。R R5.595.593.60=1.99(mol/L)3.60=1.99(mol/L)(2 2)决定组数、组段和组距:决定组数、组段和组距:根据研究目的和样本含量根据研究目的和样本含量n n确定分组组数。相邻两组段下限值之差称组距,组距确定分组组数。相邻两组段下限值之差称组距,组距=极极差差/组数,为方便计,组距为极差的十分之一组数,为方便计,组距为极差的十分之一,再略加调再略加调整。整。1.99/10 =0.199 0.2(mol/L)1.99/10 =0.199 0.2(mol/L)(3 3)列出

5、组段列出组段:第一组段的下限必须包含最小值,最:第一组段的下限必须包含最小值,最后一个组段上限必须大于或等于最大值。后一个组段上限必须大于或等于最大值。3.63.6 3.8 3.8 5.2 5.2 5.4 5.4 5.6 5.6(4 4)划记计数划记计数:用划记法将所有数据归纳到各组段,:用划记法将所有数据归纳到各组段,得到各组段的频数。得到各组段的频数。第4页/共111页2023/3/245第5页/共111页2023/3/246表8-1 某地区2002年5558岁健康成人的空腹血糖(mmol/L)测定值的频数分布表血糖(mol/L)组段组中值(xi)频数(f)累计频数(f)频率(%)累计频率

6、(%)3.603.70 3 32.27 2.27 3.803.90 3 6 2.27 4.55 4.004.10 8 14 6.06 10.61 4.204.30 23 37 17.42 28.03 4.404.50 24 61 18.18 46.21 4.604.70 25 86 18.94 65.15 4.804.90 20 106 15.15 80.30 5.005.10 12 118 9.09 89.39 5.205.30 10 128 7.58 96.97 5.405.605.50 4 132 3.03 100.00 合计132100.00 第6页/共111页2023/3/247血糖

7、血糖(mol/L)人人数数图8-1某地区2002年5558岁健康成人的空腹血糖(mmol/L)测定值的频数分布图 二、频数分布图二、频数分布图第7页/共111页2023/3/248 同一组资料,不同的人编制的频数表,结果不尽相同,允许几个合理的结果并存。第8页/共111页2023/3/249三、频数表和频数分布图用途三、频数表和频数分布图用途1描述频数分布的类型(对称分布、偏态分布)(对称分布、偏态分布)2描述频数分布的特征(集中趋势集中趋势 离散趋势)离散趋势)3便于发现一些特大或特小的可疑值4便于进一步做统计分析和处理(加权)第9页/共111页2023/3/2410(1 1)对称分布 :若

8、各组段的频数以中心位置左右两侧大体对若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布称,就认为该资料是对称分布1描述频数分布的类型(对称分布、偏态分布)描述频数分布的类型(对称分布、偏态分布)第10页/共111页2023/3/2411(2)偏态分布:1)右偏态分布(正偏态分布):右侧的组段数多于左侧的组段数,频数向右侧拖尾。2)左偏态分布(负偏态分布):左侧的组段数多于右侧的组段数,频数向左侧拖尾。第11页/共111页2023/3/2412正偏态(右偏态)正偏态(右偏态)负偏态(左偏态)负偏态(左偏态)返回第12页/共111页2023/3/2413频数分布的类型对称分布对称分布

9、对称分布正偏态分布正偏态分布正偏态分布负偏态分布负偏态分布负偏态分布第13页/共111页2023/3/24142 2描述频数分布的特征描述频数分布的特征图8-1(P154)数据的频数分布特征:数据变异(离散)的范围在3.605.60(mol/L)数据集中(平均)的组段在4.205.00(mol/L)之间,尤以组段的人数4.604.80(mol/L)最多。且上下组段的频数分布基本对称。返回第14页/共111页2023/3/24153便于发现一些特大或特小的可疑值返回第15页/共111页2023/3/2416第二节 集中趋势指标统计上使用统计上使用平均数(平均数(averageaverage)这一

10、指标体系来这一指标体系来描述一组变量值的集中趋势或平均水平。描述一组变量值的集中趋势或平均水平。常用的平均数有常用的平均数有:算术均数(均数)(算术均数(均数)(meanmean)几何均数(几何均数(geometric meangeometric mean)中位数中位数 (medianmedian)百分位数(百分位数(percentilepercentile)第16页/共111页2023/3/2417一、算术均数算术均数:简称均数(算术均数:简称均数(meanmean)定义:是一组变量值之和除以变量值个数所得的商。均数适用于资料呈正态分布(或近似正态或对称分布)资料。总体均数:样本均数:x第1

11、7页/共111页2023/3/24181、计算方法(1)直接计算法 公式公式:例例8.28.2有有9 9名健康成人的空腹胆固醇测定值名健康成人的空腹胆固醇测定值(mol/L)(mol/L)为为:5.61:5.61,3.963.96,3.673.67,4.994.99,4.244.24,5.065.06,5.205.20,4.794.79,5.935.93求算术平均数。求算术平均数。x=(5.61+3.96+3.67+4.99+4.24+5.06+5.20+4.79)/9x=(5.61+3.96+3.67+4.99+4.24+5.06+5.20+4.79)/9 =4.83(mol/L)=4.83

12、(mol/L)第18页/共111页2023/3/2419例8.1 某地区2002年5558岁健康成人的空腹血糖(mmol/L)测定值如下,试编制频数表和观察频数分布情况。5.175.175.565.564.864.864.874.874.744.745.245.245.515.514.464.464.964.964.824.824.904.905.305.305.225.225.585.584.484.484.804.804.64.64.024.025.165.165.365.364.344.344.244.244.644.644.274.274.254.254.444.444.464.464

13、.624.624.874.874.344.344.904.905.255.254.774.774.854.855.075.074.164.164.664.664.704.704.24.23.953.954.094.094.644.644.334.335.215.214.614.614.984.985.245.244.604.604.254.254.784.785.005.003.603.604.114.114.614.614.084.084.784.784.264.264.444.444.384.384.44.44.794.794.764.764.924.924.604.604.784.785

14、.035.034.354.354.184.184.684.684.654.654.574.574.274.274.994.994.214.214.894.894.714.714.724.724.414.414.384.384.064.064.794.794.964.964.834.834.454.454.514.514.274.274.504.504.314.315.055.055.595.595.085.085.165.163.743.744.364.365.365.364.644.645.095.094.574.574.464.464.564.564.394.395.245.244.614

15、.614.214.214.964.964.344.344.454.454.864.864.504.504.904.904.454.454.494.494.424.424.684.684.564.565.385.384.344.344.464.464.164.164.984.984.294.294.834.834.274.273.683.683.853.853.863.864.564.564.564.564.554.555.165.165.155.155.165.16x=(5.17+5.56+x=(5.17+5.56+5.15+5.16)/132=4.648(mol/L)+5.15+5.16)/

16、132=4.648(mol/L)第19页/共111页2023/3/2420(2)加权法(利用频数表)公式:k:频数表的组段数 f:频数 :组中值,其中i=1,2,k。第20页/共111页2023/3/2421表8-1 某地区2002年5558岁健康成人的空腹血糖(mmol/L)测定值的频数分布表血糖(mol/L)组段频数()组中值()3.603 3.70 11.10 41.07 3.803 3.90 11.70 45.63 4.008 4.10 32.80 134.48 4.2023 4.30 98.90 425.27 4.4024 4.50 108.00 486.00 4.6025 4.70

17、 117.50 552.25 4.8020 4.90 98.00 480.20 5.0012 5.10 61.20 312.12 5.2010 5.30 53.00 280.90 5.405.604 5.50 22.00 121.00 合计132614.202878.92 x=614.2/132=4.653(mol/L)x=614.2/132=4.653(mol/L)第21页/共111页2023/3/2422二、几何均数(geometric mean)定义:用G表示,是将n个观察值x的乘积再开n次方的方根(或各观察值x对数值均值的反对数)。其适用条件是:当一组观察值为非对称分布且其差距较大时,

18、用均数表示其平均水平会受少数特大或特小值影响;数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。第22页/共111页2023/3/2423几何均数计算公式:几何均数:几何均数:变量对数值的变量对数值的算术均数的反对数。算术均数的反对数。n n计算几何均数的观察值应大于零 第23页/共111页2023/3/2424例8.3 有有7 7份血清的抗体效价份血清的抗体效价分别为分别为1:2,1:4,1:8,1:16,1:2,1:4,1:8,1:16,1:32,1:64,1:128,1:32,1:64,1:128,求平均抗体效求平均抗体效价。价。第24页/共111页2023/3/2425(2)加权

19、法(当观察例数多时采用)公式:第25页/共111页2023/3/2426例8.4 有有6060人的血清抗体效价,分别为人的血清抗体效价,分别为:7:7人人1:51:5,1111人人1:101:10,2222人人1:201:20,1212人人1:401:40,8 8人人1:801:80,求平均抗体效价。,求平均抗体效价。n n50人的血清平均抗体效价为1:20.705。第26页/共111页2023/3/2427例例8.4 8.4 有有6060人的血清抗体效价,求其平均抗体效价人的血清抗体效价,求其平均抗体效价第27页/共111页2023/3/2428计算几何均数应该注意的事项v变量值中不能有0或

20、负数,因为0和负数不能取对数。v不能同时有正有负。若全部是负值,计算时可先把负号去掉,得出结果后,再加上负号。第28页/共111页2023/3/2429三、三、中位数与百分位数中位数与百分位数(一)中位数(median)q定义:用符号定义:用符号M M表示,中位数是把一组观察值,表示,中位数是把一组观察值,按大小按大小顺序排列顺序排列,位置居中的数值(位置居中的数值(n n为奇数)或位置居中的两为奇数)或位置居中的两个数值的均值(个数值的均值(n n为偶数)。为偶数)。q其适用情况有:其适用情况有:当资料呈明显的偏态分布;当资料呈明显的偏态分布;资料一端或两端无确定数值(如大于或小于某数值);

21、资料一端或两端无确定数值(如大于或小于某数值);资料的分布情况不清楚资料的分布情况不清楚。MMe e50%50%第29页/共111页2023/3/2430计算公式:n为奇数时为奇数时n为偶数时为偶数时第30页/共111页2023/3/2431例8.5 7 7名正常人的血压名正常人的血压(舒张压舒张压)测测定值定值(mmHg)为为:72,75,76,77,81,82,86,求求中位数中位数。n n从小到大排列:72,75,76,77,81,82,86n n若又观察了一个人的血压,为87(mmHg),此时(77+81)/2=79(mmHg)第31页/共111页2023/3/2432 例:1,3,7

22、,5,100 中位数为多少?第32页/共111页2023/3/2433频数表资料的中位数频数表资料的中位数(P157公式8.5)下限值下限值L L上限值上限值U Ui;fm中位数中位数M M第33页/共111页2023/3/2434例例8.18.1频数表中位数的计算频数表中位数的计算血糖(mol/L)组段组中值()频数(f)累计频数(f)频率(%)累计频率(%)3.603.70 3 32.27 2.27 3.803.90 3 6 2.27 4.55 4.004.10 8 14 6.06 10.61 4.204.30 23 37 17.42 28.03 4.404.50 24 61 18.18

23、46.21 4.604.604.70 4.70 25 25 86 86 18.94 18.94 65.15 65.15 4.804.90 20 106 15.15 80.30 5.005.10 12 118 9.09 89.39 5.205.30 10 128 7.58 96.97 5.405.605.50 4 132 3.03 100.00 合计132(fi)100.00 n n4.60+(0.20/25)*132/2-61=4.64第34页/共111页2023/3/2435 百分位数示意图百分位数示意图(二)百分位数(二)百分位数(percentile)n n把一组数据从小到大排列,分成1

24、00等份,各等份含1%的观察值,分割界限上的数值就是百分位数。n n中位数是第50百分位数,用P5050表示。第35页/共111页2023/3/2436第36页/共111页2023/3/2437Trunc()取整函数 设有设有X个原始数据从小到大排列,第个原始数据从小到大排列,第X百分位数的计算公式为:百分位数的计算公式为:1 1直接计算法直接计算法当当为带有小数位时:为带有小数位时:当当为为整数时:整数时:第37页/共111页2023/3/2438例例 对某医院细菌性痢疾治愈者的住院天数统计,对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大排列如下,试求第名患者的住院天

25、数从小到大排列如下,试求第5百分位数和第百分位数和第99百分位数。百分位数。,为整数:患者编号患者编号:住院天数住院天数:(1)n=120,第38页/共111页2023/3/2439带有小数 (2)故取整故取整trunc(118.8)=118第39页/共111页2023/3/24402 2频数表法频数表法 公式:第40页/共111页2023/3/2441 当 时,公式(8.5)即为中位数的计算公式:第41页/共111页2023/3/2442 例8.1 试分别求例8.1频数表的第25、第75百分位数。P P25254.20+0.204.20+0.20(132(13225%25%14)/2314)

26、/234.3654.365P P75754.80+0.204.80+0.20(132(13275%75%86)/2086)/204.9304.930血糖(mol/L)组段组中值(xi)频数(f)累计频数(f)频率(%)累计频率(%)3.603.603.70 3.70 3 3 3 32.27 2.27 2.27 2.27 3.803.803.90 3.90 3 3 6 6 2.27 2.27 4.55 4.55 4.004.004.10 4.10 8 8 14 14 6.06 6.06 10.61 10.61 4.204.204.30 4.30 23 23 37 37 17.42 17.42 2

27、8.03 28.03 4.404.404.50 4.50 24 24 61 61 18.18 18.18 46.21 46.21 4.604.604.70 4.70 25 25 86 86 18.94 18.94 65.15 65.15 4.804.804.90 4.90 20 20 106 106 15.15 15.15 80.30 80.30 5.005.005.10 5.10 12 12 118 118 9.09 9.09 89.39 89.39 5.205.205.30 5.30 10 10 128 128 7.58 7.58 96.97 96.97 5.405.405.605.605

28、.50 5.50 4 4 132 132 3.03 3.03 100.00 100.00 合计合计132(fi)132(fi)100.00 100.00 第42页/共111页2023/3/2443三种平均数的特点v算术均数:算术均数:通常被认为是最佳集中趋势的度量值。通常被认为是最佳集中趋势的度量值。如果资料观察值含有少数极端数值(相对的说特如果资料观察值含有少数极端数值(相对的说特大或特小值)或资料呈偏态分布,算术均数就变大或特小值)或资料呈偏态分布,算术均数就变得不稳定而失去代表性。得不稳定而失去代表性。正态分布正态分布v几何均数几何均数一般只适宜于一般只适宜于等比级数等比级数资料。对于这

29、类资料。对于这类资料,用几何均数反映集中趋势比算术均数或中资料,用几何均数反映集中趋势比算术均数或中位数更合适。位数更合适。v中位数中位数不受其前后其他数值(特别是极端值)的不受其前后其他数值(特别是极端值)的影响。但如果数据呈明显不同且差异很大,这时影响。但如果数据呈明显不同且差异很大,这时中位数可能不适宜作为集中趋势的度量值了。中位数可能不适宜作为集中趋势的度量值了。偏态分布偏态分布第43页/共111页2023/3/2444v反映集中趋势的指标反映集中趋势的指标(平均数)(平均数),表示一组观察,表示一组观察值的平均水及集中特性,并可作为总体的一个代值的平均水及集中特性,并可作为总体的一个

30、代表值加以应用。但是它没有表达其所代表的总体表值加以应用。但是它没有表达其所代表的总体中各个个体之间的差异。中各个个体之间的差异。v统计学中把个体间的差异称为统计学中把个体间的差异称为变异性变异性(variationvariation)。所谓变异性是指在同质条件下的。所谓变异性是指在同质条件下的观察单位,其同一标志的数据间的差异性。用以观察单位,其同一标志的数据间的差异性。用以描述一组数值变量资料观察值之间参差不齐的程描述一组数值变量资料观察值之间参差不齐的程度,即离散程度或变异度的指标,称为度,即离散程度或变异度的指标,称为离散指标离散指标或变异指标或变异指标。第三节 离散趋势的描述第44页

31、/共111页2023/3/2445盘编号盘编号盘编号盘编号 甲甲甲甲乙乙乙乙丙丙丙丙1 1 1 15605605605605205205205205105105105102 2 2 25405405405405105105105105055055055053 3 3 35005005005005005005005005005005005004 4 4 44604604604604904904904904954954954955 5 5 5440440440440480480480480490490490490合计合计合计合计25002500250025002500250025002500250

32、0250025002500均数均数均数均数500500500500500500500500500500500500 例例:设设甲甲、乙乙、丙丙三三人人,采采每每人人的的耳耳垂垂血血,然然后后作作红红细细胞计数,每人数胞计数,每人数5个计数盘,得结果如下(万个计数盘,得结果如下(万/mm3)甲乙丙第45页/共111页2023/3/2446第46页/共111页2023/3/2447常用统计指标:全距(range)四分位数间距(quartile interval)方差和标准差(variance&standard deviation)变异系数(CV coefficient of variation)第

33、47页/共111页2023/3/2448全距,用R表示:即一组变量值最大值与最小值之差,亦称极差。对于书中例8.1数据,有简单,但仅利用了两端点值,稳定性差。简单,但仅利用了两端点值,稳定性差。一、全距(一、全距(RangeRange)R5.593.60=1.99(mol/L)R R越大,变异度越大;越大,变异度越大;R R越小,变异度越小。越小,变异度越小。第48页/共111页2023/3/2449二、四分位数间距(quartile range)四分位数间距,用四分位数间距,用Q Q表示,若将一组资表示,若将一组资料分为四等份,上四分位数和下四分位料分为四等份,上四分位数和下四分位数之差就是

34、:数之差就是:Q=下四分位数下四分位数:上四分位数:上四分位数:比全距稳定;可用于一端或两端无确切数值的偏态比全距稳定;可用于一端或两端无确切数值的偏态资料。资料。未考虑每一个观察值。未考虑每一个观察值。第49页/共111页2023/3/2450v全距和四分位数间距都未全面考虑观察值的变全距和四分位数间距都未全面考虑观察值的变异情况,为了克服该缺点,需计算总体中每个异情况,为了克服该缺点,需计算总体中每个观察值观察值x x与总体均数与总体均数 的差值(的差值(x-x-),称为),称为离离均差均差。v由于由于(x-x-)=0=0,不能反映变异的大小,而,不能反映变异的大小,而用离均差平方和用离均

35、差平方和 (x-x-)2 2(sum of sum of deviation from meandeviation from mean)反映。同时还要考虑)反映。同时还要考虑到观察值个数到观察值个数N N的影响,用其均数,即得到的影响,用其均数,即得到总总体的方差体的方差,用,用 2 2表示。表示。v公式为:公式为:三、方差与标准差第50页/共111页2023/3/24511.1.方差(方差(variancevariance)是离均差平方和的均数,反映是离均差平方和的均数,反映一组数据的平均离散水平。一组数据的平均离散水平。l由于在实际工作中,往往得到的样本资料,总体均数由于在实际工作中,往往

36、得到的样本资料,总体均数 是未知是未知的,所以只能用样本均数的,所以只能用样本均数 作为作为 的估计值,即用的估计值,即用 代替代替 ,用样本例数,用样本例数n n代替代替N N。但按公式计算的结果。但按公式计算的结果 通常比实际的通常比实际的 低。所以用低。所以用n n来代替来代替n n进行校正。得到进行校正。得到样样本方差本方差 离均差平方和SS总体方差总体方差样本方差样本方差自由度自由度第51页/共111页2023/3/2452样本方差自由度(degree of freedom)1.一组数据中可以自由取值的数据的个数2.当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可

37、以自由取值,其中必有一个数据则不能自由取值3.例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x=5。当 x=5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值4.样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量第52页/共111页2023/3/2453标准差(standard deviation)v方差可以比较全面地反映变量值的变异情况,但其方差的单位是原单位的平方,方差可以比较全面地反映变量值的变异情况,但其方差的单位是

38、原单位的平方,故引入标准差的概念。故引入标准差的概念。v标准差:将方差开平方,恢复成原度量单位,得到总体的标准差标准差:将方差开平方,恢复成原度量单位,得到总体的标准差 和样本标准差和样本标准差S。第53页/共111页2023/3/2454 样本标准差用 表示,其度量单位与均数一致,所以最常用。离均差平方和SS3.总体标准差 用表示公 式:公 式:第54页/共111页2023/3/2455 n标准差的公式还可以写成:n利用频数表计算标准差的公式为:第55页/共111页2023/3/2456例 对以下数据:75,76,72,69,66,72,57,68,71,72,用直接法计算标准差。第56页/

39、共111页2023/3/2457血糖(mol/L)组段频数()组中值()3.603 3.70 11.10 41.07 3.803 3.90 11.70 45.63 4.008 4.10 32.80 134.48 4.2023 4.30 98.90 425.27 4.4024 4.50 108.00 486.00 4.6025 4.70 117.50 552.25 4.8020 4.90 98.00 480.20 5.0012 5.10 61.20 312.12 5.2010 5.30 53.00 280.90 5.405.604 5.50 22.00 121.00 合计132614.20287

40、8.92例8-利用表8-2中的数据和频数表法计算标准差。第57页/共111页2023/3/2458标准差的基本内容是标准差的基本内容是 “离均差离均差”,它显示一组变量值与其均数的间距,故标准差,它显示一组变量值与其均数的间距,故标准差直接地直接地、总结地、平均地总结地、平均地描述了变量值的离散程度。描述了变量值的离散程度。第58页/共111页2023/3/2459标准差应用1.反映一组资料的离散程度2.计算变异系数3.计算标准误4.结合均数与正态分布规律估计正常值范围第59页/共111页2023/3/2460四、变异系数n变异系数(coefficient of variation,CV)常用

41、于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。第60页/共111页2023/3/2461例:某地7岁男孩身高的均数为123.10 cm,标准差为4.71cm;体重均数为22.29kg,标准差为2.26kg,比较其变异度?(观察指标单位不同)(观察指标单位不同)第61页/共111页2023/3/2462均数相差较大时均数相差较大时:第62页/共111页2023/3/2463平均数与变异度的关系 平均数表示的集中性与变异度表示的离散性,是从两个不同的角度阐明计量资料的特征 变异度越小,平均数对各变量值的代表性越好 变异度越大,平均数对各变量值的代表性越差 第63页/共111页20

42、23/3/2464平均数与变异度的关系通常,平均数与变异指标一起描述资料的分布特征。用用均数和标准差均数和标准差描述正态分布资料的特征;描述正态分布资料的特征;用用中位数和四分位数间距中位数和四分位数间距描述偏态分布资料的特征。描述偏态分布资料的特征。第64页/共111页2023/3/2465资料的指标描述是统计描述的一个重要的组成部分定量资料的统计指标平均水平指标:算术均数、几何均数、中位数 等。离散程度指标:全距、四分位数间距、方差、标准差、变异系数。第65页/共111页2023/3/2466第66页/共111页2023/3/2467小结:正态分布正态分布偏态分布偏态分布集中趋势集中趋势算

43、术平均数算术平均数(几何平均数几何平均数)中位数中位数离散趋势离散趋势标准差、标准差、变异系数变异系数四分位间距四分位间距第67页/共111页2023/3/2468第四节 正态分布第68页/共111页2023/3/2469正态分布的重要性正态分布的重要性v医学研究中的许多正常人生理、生化指标服从或近似服从正态分布;v很多统计方法是建立在正态分布的基础之上的;v很多非正态分布的资料转化为正态分布。因此,正态分布是统计分析方法的重要基础。第69页/共111页2023/3/2470正态分布:又称为Gauss分布(Gaussian distribution)。设设想想当当原原始始数数据据的的频频数数分

44、分布布图图的的观观察察人人数数逐逐渐渐增增加加且且组组段段不不断断分分细细时时,图图2-42-4中中的的直直条条就就不不断断变变窄窄,其其顶顶端端则则逐逐渐渐接接近近于于一一条条光光滑滑的的曲曲线线。这这条条曲曲线线形形态态呈呈钟钟形形,两两头头低低、中中间间高高,左左右右对对称称,近近似似于于数数学学上上的的正正态态分分布布。在在处处理理资资料料时时,我我们们就就把把它它看成是看成是正态分布。正态分布。第70页/共111页2023/3/2471一、正态分布的概念和特征当X服从正态分布n记作XN(,2)n其中为总体均数,2为总体方差第71页/共111页2023/3/24721正态分布曲线的数学

45、函数表达式 如果随机变量 的分布服从概率密度函数第72页/共111页2023/3/24732正态分布的特征(3)正态分布有两个参数,即位置参数和形态参数。若固定,改变值,曲线沿着X轴平行移动,其形状不变若固定,越小,曲线越陡峭;反之,越大,曲线越平坦 正态曲线在正态曲线在 1 1,标准正态分布在,标准正态分布在 1 1处各有一个拐点;处各有一个拐点;第73页/共111页2023/3/2474xf(x)CAB 和 对正态曲线的影响第74页/共111页2023/3/2475第75页/共111页2023/3/2476第76页/共111页2023/3/2477(4)正态曲线下的面积分布有一定的规律。累

46、积面积可通过对概率密度函数累积面积可通过对概率密度函数f f(X X)积分求得积分求得第77页/共111页2023/3/2478第78页/共111页2023/3/2479图2-7 正态曲线面积分布示意图 第79页/共111页2023/3/2480正态分布是一个分布族,对应于不同的参数和会产生不同位置、不同形状的正态分布。第80页/共111页2023/3/2481用N(0,1)表示,即u值的均数为0,标准差为1。标准正态变换 第81页/共111页2023/3/2482第82页/共111页2023/3/2483 正态分布 标准正态分布第83页/共111页2023/3/2484正态曲线下的面积特点横

47、轴上曲线下的面积为1;正态曲线和标准正态曲线下,横轴上分别对称于或0的面积相等;常用的分布点有:正态分布 标准正态分布 面积 1 +1 1 +1 68.27%1.96 +1.96 1.96+1.96 95.00%2.58 +2.58 2.58+2.58 99.00%第84页/共111页2023/3/2485第85页/共111页2023/3/2486 正态分布除了可估计频数分布外,还是许多统计方法的基础,并可应用于质量控制及制定医学参考值范围。第86页/共111页2023/3/2487v参考值范围(参考值范围(reference rangesreference ranges)医学参考值是指正医学

48、参考值是指正常人的各种生理、生化数据,组织或排泄物中各种成分的含常人的各种生理、生化数据,组织或排泄物中各种成分的含量。量。v由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围(学参考值范围(medical reference rangemedical reference range)作为判定正常和异常的参考标作为判定正常和异常的参考标准。准。第五节 医学参考值范围第87页/共111页2023/3/2488医学参考值(reference value)是指正常人的各种生理、生化数据,组织或排泄物中各

49、种成分的含量。医学参考值范围是指正常人指标测定值的波动范围,参考值范围在诊断方面可用于划分正常或异常。一、意义一、意义正常人排除了影响被研究指标的疾病或因素的人。第88页/共111页2023/3/2489医学参考值范围医学参考值范围(reference ranges)为什么波动?“个体变异”同一指标的数据因人而异同一个体的数据随环境、时间等改变而变第89页/共111页2023/3/2490为什么要确定一个范围?既然同属正常人,就不能以甲的数据为标准,认为乙异常,亦不能以甲此时的数据为标准,认为彼时的异常。所以必须确定一个波动范围。如WBCWBC:400010000个/mm3“正常”是一个相对的

50、概念 “正常人”是指排除了影响所研究指标的疾病和有关因素的人。第90页/共111页2023/3/2491意义横向分析划界、分类临床医生判断正常与异常的参考依据 动态分析如某个地区不同时期发汞的正常值可反映环境污染的动态变化或环保效果第91页/共111页2023/3/2492二、制定参考值的基本步二、制定参考值的基本步骤骤1、从正常人总体中抽样;2控制测量误差;3判定是否需要分组确定参考值范围;4.决定取单侧还是双侧;5.选定合适的百分界限;6对资料的分布进行正态性检验;7根据资料的分布类型选定适当的方法进行参考值范围的估计。第92页/共111页2023/3/2493选定同质的正常人作为研究对象

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > PPT文档

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁