《统计学案例分析.pptx》由会员分享,可在线阅读,更多相关《统计学案例分析.pptx(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、案例讨论四案例讨论一案例讨论三案例讨论二Contents Page目录页*概念汇总第1页/共22页Transition Page过渡页*概念汇总案例讨论四案例讨论一案例讨论三案例讨论二第2页/共22页概念汇总1.均数(average):适用:对称分布或偏度不大的资料,尤其适合正态分布。1、算术均数(mean):2、加权均数:3、几何均数:2.中位数(median):观察值按照从小到大排列时,居中心位置的数值。适用于1、分布明显成偏态时,2、频数分布的一端或两端无确切数值时。不便于统计计算。M:中位数;LM:M所在组的上限;f L:M所在组之前积累的频数;fM:M所在组的频数;i:组距。3.百分
2、位数(percentile):Px。在一组中找到这样一个数值P,全部观察值的x%小于P。P75、P25描述资料离散程度。4.众数:一组观察值中,出现频率最高的那个观察值。若为分组资料,则为频率最高组的组中值。适用于大样本,但粗糙。1.1集中趋势的统计描述第3页/共22页概念汇总1.2 离散程度的统计描述1.极差(range,R):即全距。粗略。适用于任何分布。2.四分位数间距(quartile,Q):一组观察值按大小排序后,分成四个数目相等的段落,每个段落观察值的数目占总例数的25%。去掉两端含有极端数值的25%,取中间的50%的观察值的数据范围即为。越大则数据变异越大。适用于偏态分布。Q=P
3、75-P254.方差(variance):样本方差 总体方差 5.标准差(standard deviations):适用于近似正态分布。2、与均数结合可以完整概括一个正态分布。第4页/共22页Transition Page过渡页*概念汇总案例讨论四案例讨论一案例讨论三案例讨论二第5页/共22页案例讨论一案例讨论一 某年某课题组检测了某企业238名无工作也接触史工人的发汞含量(molkgmolkg),整理结果见下表,适对该企业工人发功水平进行统计描述。组段组段(molkg)(molkg)组中值组中值X0X0人数人数f f频率(频率(%)累计频数累计频数累计频率累计频率(%)1.51.52.52.
4、520208.48.420208.48.43.53.54.54.5666627.727.7868636.136.15.55.56.56.5606025.225.214614661.361.37.57.58.58.5484820.220.219419481.581.59.59.510.510.518187.67.621221289.189.111.511.512.512.516166.76.722822895.895.813.513.514.514.56 62.52.523423498.398.315.515.516.516.51 10.40.423523598.798.717.517.518.
5、518.50 00 023523598.798.719.521.519.521.520.520.53 31.31.3238238100100合计合计238238100100为描述该企业工人发汞含量的平均水平和变异程度,某研究者采用算术平均数和标准差两个统计指标。按照频率表法计算算术均数为 =1699/238=7.14(molkg)标准差为 (molkg)因此该研究着认为该企业工人发汞的平均水平和变异程度为(7.143.23)molkg你认为这样统计描述恰当么?为什么?第6页/共22页案例讨论一 经案例分析可知该发汞结果测定为偏态分布,因为均数(average)适用于对称分布或偏度不大的资料,尤
6、其适合正态分布。标准差(standard deviations)同样适用于近似正态分布。所以不能选用均数与标准差来计算该企业法功的平均水平与变异程度。因此通过统计描述类型的选择,中位数与四分位数间距更适合于描述变量值的平均水平与变异程度。Q=P75-P25第7页/共22页案例讨论一综上所述:Q=P75-P25=8.85-4.70=4.15(molkg)(molkg)=5.5+2/60(238*50%-86)=6.6(molkg)(molkg)第8页/共22页Transition Page过渡页*案例讨论四案例讨论一案例讨论三案例讨论二概念汇总第9页/共22页案例讨论二案例讨论二 某单位1993
7、年对1191名全体职工进行冠心病普查,按职业年龄分组统计,结果见下表,作者认为:该单位干部、工人的冠心病发病率均随年龄的增加而下降,发病率高峰都在40-50岁这一组,这与其他资料的结果不符。你同意上述分析么?请说明理由职业职业4040505060706070发病人数发病人数合计合计发病人数发病人数发病率发病率(%)发病人数发病人数发病率发病率(%)发病人数发病人数发病率发病率(%)干部干部212160609 925.725.75 514.314.33535工人工人121270.670.64 423.523.51 15.95.91717合计合计333363.563.53 325256 611.5
8、11.55252第10页/共22页案例讨论二第11页/共22页案例讨论二职业职业4040505060706070发病人数发病人数合计合计发病人数发病人数发病率发病率(%)发病人数发病人数发病率发病率(%)发病人数发病人数发病率发病率(%)干部干部212160609 925.725.75 514.314.33535工人工人121270.670.64 423.523.51 15.95.91717合计合计333363.563.53 325256 611.511.55252首先,通过题目分析可知该题测得的不是发病率,而是相同情况下的构成比。构成比试强度指标,而不是频率指标,不能代表总体的情况,所以如下
9、图应将发病率改为构成比。其次,题目给出进行冠心病普查的总人数,并不知道各组段的人数,所以不可能准确的求出发病率,只能表示40-50岁人群发病率所占的比重较大。所以,我们不同意题目分析!患病率第12页/共22页Transition Page过渡页*案例分析四案例分析一案例分析三案例分析二概念汇总第13页/共22页案例分析三案例讨论三 抽样调查某企业不同工种职工发生高血压病的情况,根据2827 里受检者的结果,该企业单位高血压发病率为7.5%,并随年龄增长递增,其中四十岁以上患者占全部病例的87.3%。表中结果提示高血压发病率与工种有关,甲工种为9.0%,甲工种明显高于乙工种,(P0.01),试对
10、以上分析加以评述。年龄组(岁)年龄组(岁)甲工种甲工种乙工种乙工种受检人数受检人数病例数病例数发病率(发病率(%)受检人数受检人数病例数病例数发病率(发病率(%)20203333333 30.90.971271211111.51.530303013014 41.31.31421429 96.36.34040517517646412.412.4185185272714.614.650605060576576858514.814.86161101016.416.4合计合计172717271561569 91100110057575.25.2患病率第14页/共22页案例分析三直接标准化法第15页/共
11、22页案例分 析三原理:如果两组个体的年龄原理:如果两组个体的年龄,性别,病情等变量在两组内分布存在差异,则粗死亡率,粗发病率性别,病情等变量在两组内分布存在差异,则粗死亡率,粗发病率,粗治愈率等不能进行直接比较,为了消除两组个体其他变量分布不同的影响,需要首先对两,粗治愈率等不能进行直接比较,为了消除两组个体其他变量分布不同的影响,需要首先对两组数据做标准化处理。组数据做标准化处理。在该案例中,各年龄段的人数构成并不相同,所以需要做标准化处理。以甲乙两组合并作为标准人口,则标准化患病率为 计算出结果后,乙甲,因此,该医生推断错误 第16页/共22页案例讨论三综上所诉该企业单位的高血压患病率为
12、7.5%,并随年龄的增长递增,其中40岁以上患者占全部病例的87.3%。表中提示高血压的患病与工种有关。甲工种为6.95%,乙工种为8.86%,乙工种明显高于甲工种。第17页/共22页Transition Page过渡页*案例分析四案例分析一案例分析三案例分析二概念汇总第18页/共22页案例分析四案例分析四 小明和小聪竞选学生会主席。通过民意调查,小聪目前的支持率为43%,小明的支持率为41%,可谓旗鼓相当,小聪的竞选参谋彤彤根据调查结果绘制了一张条形图,用以反映目前两名竞争对手的支持率,改图作为小聪的竞选海报,请指出下图是否有不妥之处,改图作为小聪的竞选海报可能产生什么效果?支持率(%)第19页/共22页案例讨论四 该案例中,这张直条图给我们的感觉是小聪的支持率是小明支持率的两倍。小聪竞选成功的几率远高于小明。但实际小聪的43%与小明的41%仅相差2%。原理:直方图、累计频率分布图和直条图纵坐标要从0开始,而横轴刻度只需表示出观测值的实际范围即可,显然该图不符合,因此需要修改,以免产生误导。正确的图为:0%第20页/共22页感谢收看 请多指点谢谢观赏谢谢观赏制作人:韩雪第21页/共22页感谢您的观看!第22页/共22页