统计资料的统计描述.ppt

上传人:wuy****n92 文档编号:80496607 上传时间:2023-03-23 格式:PPT 页数:54 大小:598.50KB
返回 下载 相关 举报
统计资料的统计描述.ppt_第1页
第1页 / 共54页
统计资料的统计描述.ppt_第2页
第2页 / 共54页
点击查看更多>>
资源描述

《统计资料的统计描述.ppt》由会员分享,可在线阅读,更多相关《统计资料的统计描述.ppt(54页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第二章 统计资料的整理与描述刘沛东南大学公共卫生学院流行病学与卫生统计学系2/22/20231内容提要n数值变量的描述频数表与直方图统计指标n分类变量的描述相对数相对数应用2123.60 121.03 115.42 113.40 124.02 123.41 122.81 125.83 112.33 122.91124.79 110.12 117.91 126.32 116.55 113.31 114.38 127.22 112.80 120.13120.62 124.84 117.17 109.85 118.96 116.66 117.44 121.68 118.82 117.63120.05

2、 119.90 115.24 121.42 125.64 124.24 118.17 120.07 115.12 118.76116.74 128.35 124.43 115.36 113.59 125.39 120.62 120.10 122.46 120.51113.26 118.44 122.30 117.36 116.46 121.33 120.88 111.86 117.99 112.65117.44 124.44 118.69 121.40 118.61 130.75 118.31 121.44 117.16 129.65111.36 115.26 120.78 123.84 12

3、3.16 121.23 126.14 118.65 119.19 116.02115.78 119.01 116.63 120.63 114.30 119.96 116.63 128.41 117.42 123.32114.09 118.58 116.73 117.11 117.97 108.13 126.42 119.66 119.69 118.38115.16 115.01 119.48 127.58 122.14 122.63 115.57 123.70 123.39 119.59123.40 119.72 120.60 115.50 123.78 118.41 118.82 114.5

4、6 119.45 118.11 3(1)找出观察值中的最大值和最小值并求出极差。找出观察值中的最大值和最小值并求出极差。(2)按极差大小决定组段数、组段和组距。按极差大小决定组段数、组段和组距。组距22.62/121.89,取2(3)列表划记。列表划记。2.12.1频数表频数表频数表的编制 4表2.1 120名7岁男童身高的划记和频数 组段(1)频数频数(2)累累计频计频数数(3 3)10822110351127121141426116194511824691201887122151021249111126511612831191301321120合合计计1205频 数108110112114

5、1161181221241261281301320510152025120身高(cm)2.1.2 频数分布的图示 6(2)分布的类型分布的类型(3)分布特征分布特征 对称分布偏态分布正偏态:尾部右拖负偏态:尾部左拖集中趋势(central tendency)离散趋势(tendency of dispersion)2.1.3.频数分布的分析(1)有无异常值有无异常值 outlier78数值描述n集中趋势(central tendency)n离散趋势(tendency of dispersion)92.2 集中趋势的描述集中趋势的描述 central trendency n平均水平分布特征的数量化

6、反映平均水平分布特征的数量化反映n一组指标一组指标平均数平均数(average)算术均数算术均数 arithmetic mean几何均数几何均数 geometric mean中位数中位数 median10 2.2.1 均数 均数mean,算术均数arithmetic mean一组观察值在数量上的平均水平应用:单峰对称分布资料 11(1)未分组资料的均数计算法。例 10名20岁女青年血清总蛋白含量(g/L)如下:74.3,75.6,78.8,67.2,70.4,77.6,81.6,67.3,70.3,71.212(2)分组资料的均数计算法加权法 直接求原始资料的均数为119.41(cm),两者稍

7、有出入,但在单峰对称分布时近似程度甚好。13 2.2.2 几何均数geometric meanG,抗体滴度资料的平均水平适用:各变量值之间成倍数关系,但作对数变换对数变换后指标成单峰对称分布的资料。14(1)未分组资料的几何均数计算法155人的血清抗体滴度为1:2,1:4,1:8,1:16,1:32,求平均滴度。例2.416对数正态分布资料如稀释浓度等 可以归结为对数变换资料的算术均数 应用:192.2.3 中位数与百分位数 中位数(edian,简记为M)将一组观察值从小到大按顺序排列,位次居中的观察值 或插入值。百分位数(percentile)以PX表示,一个百分位数PX将总体或样本的全部观

8、察值分为两个部分,理论上有X的观察值比PX小,有(100-X)观察值比PX大 20(1)未分组资料的中位数计算法例2.7 8名杆菌痢疾治愈者的住院天数为:4,9,10,12,14,20,24,61。如果将最后一个数去掉中位数是几?21例 157名杆菌痢病治愈者的住院天数如表所示,计算其中位数及25和75百分位数。(2)分组资料的中位数和百分位数计算法22 X42 26.1 X78.5 X90 50 57.3 10天 10天天 2324应用对资料分布没有特殊要求,所有资料均可计算中位数和百分位数资料是偏态分布的或有异常值分布不规则一端或两端有不确定数据(开口资料)时。n一般情况下,分布在中间的百

9、分位数较稳定,靠近两端的百分数,仅在样本含量足够大时才趋于稳定。n中位数比均数具有较好的稳定性,但不精确,因此,当资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。25真实的笑料:国家统计局不会计算平均数国家统计局不会计算平均数!?!?n国家统计局人口就业司司长冯乃林表示,工资“被增长”是一种误解,在金融危机中,处于工资低端的岗位和企业减少,而处于工资高端的岗位和企业变化较小,是造成平均工资数据仍然上升的原因之一。国家统计局承认因统计面过窄致使平均工资被增长o国家统计局2009年7月29日表示,上半年,中国城镇单位在岗职工平均工资为14638元,同比增长12.9%,有网民称,统计数据与

10、自己的收入不符。平均数的计算和比较要建立在同质基础上!平均数的计算和比较要建立在同质基础上!262012年1月21日国家统计局首次公布了城乡居民收入的中位数报告显示,2011年城镇居民人均可支配收入中位数为19118元,此前公布的数据中,城镇居民人均可支配收入均数比中位数高2692元。在过去,居民收入数据一公布,很多人就会说自己又“被增长”了。其实,数字并没有水分,“被增长”原因之一是“平均数”,就现实国情而言,国内收入结构并非理想的中产占多数的橄榄型,“削峰平谷”的“平均数”其实变相掩盖了收入差异,比例较高的中低收入者自然不会买账。当资料呈偏态分布时应采用中位数27n看看用中位数是否更加合适

11、n?282.3 离散程度的描述 dispersion,spreadn描述散布与变异,反映个体差异的指标n常用指标有极差极差 Range四分位数间距四分位数间距 inter-quartile range方差方差 Variance标准差标准差 Standard Deviation29 例2.9 三组同性别、同年龄儿童的体重(kg)如下,试分析其集中趋势和离散程度。甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34=30kg 2.3.1.极差极差 极差(range,记为R)亦称全距。即一组数据中最大值与最小值之差。反映个体的变化范围 R甲34-

12、268(kg)R乙36-2412(kg)R丙34-268(kg)302.3.3 方差与标准差variance&standard deviationn统计学中最重要的指标之一n与平均数一起构成描述统计学向推断统计学过度的重要桥梁32方差与标准差(variance&standard deviation)33总体方差与样本方差34总体标准差与样本标准差自由度:随机变量自由取值的个数。当一组样本取定时,总和是一定的,只有n-1个观察值可以自由取值。自由度是一些统计分布的参数。35计算样本方差(标准差)36对于分组资料用公式 对例2.9中三组资料求得标准差分别为 s甲3.1623kgs乙4.7434kg

13、s丙2.9155kg 甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34 37例2.10 直接法和加权法求标准差 1)用直接法求原始数据的标准差:因X14329.62,X21713433.75,故 2)用加权法求频数表资料的标准差:因fX14332,fX21714040,故 38相对离散度指标的重要性亦称离散系数,意指标准差与均数之比,常用百分位数表示。2.3.4.变异系数39(1)度量衡单位不同的几组资料间比较 例如:某地20岁男子100人,其身高的均数为171.06cm,标准差为4.95cm;体重的均数为61.54kg,标准差为5.0

14、2kg。由于身高和体重的单位不同,不能直接比较标准差,而应比较其变异系数。40(2)均数相差悬殊的几组资料间比较 表2.3是四个不同年龄组儿童身高的均数、标准差,变异系数412.4 分类资料的率和比分类资料的率和比422.4.1 比(ratio)相对比,A、B两个有关指标之比;两个指标可以性质相同,也可以性质不相同 432.4.2 构成比(proportion)n构成比,构成指标,它说明一种事物内部各组成部分所占的比重或分布,常以百分数表示,计算公式为:442.4.3 率(rate)频率指标,用以说明某现象发生的频率或强度。常以百分率()、千分率()、万分率(1/万)、十万分率(1/10万)等

15、表示。计算公式为 452.4.4.应用相对数时应注意n计算相对数的分母不宜过小 n对观察单位数不等的几个率,不能直接相加求其平均率n分析时不能以构成比代替率n对比时应注意资料的可比性46 资料的可比性1)观察对象同质,时间相近,研究方法相同,以及地区、民族等客观条件一致。2)其它影响因素在各组的内部构成应相近。472.4.5 标准化法标准化法 当比较两个总率时,如果影响指标水平的重要特征在构成上不同,冒然进行两总率的比较,会产生错误的结论,必须设法消除这种内部构成上的差别,才能进行比较。统计学上特将这种方法称为率的标准化(standardization method of rate)。48表表

16、2.6 某市甲乙两院某病治愈人数某市甲乙两院某病治愈人数49标准组的选择n1.标准组应选择有代表性的、较稳定的、来自数量较大的人群的指标作为标准,例如世界的、全国的、全省的、本地区的或本单位历年累计的数据等;n2.选择相互比较的人群之一或合并作标准,如比较甲乙两组资料时,可用甲乙两组合并的数据作标准。51表表2.8 计算某市甲乙两院标准化治愈率(计算某市甲乙两院标准化治愈率(%)52注意事项1、同一被标化组在不同的标准下所求得的标化率可能不等,但相互对比的趋势基本一致。2、标准化的目的是为了进行合理的比较,并不反映具体的实际水平。因此,要反映实际情况,则需用未标化前的率。53谢谢您的认真听讲!54

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁