《统计中的基本概念.ppt》由会员分享,可在线阅读,更多相关《统计中的基本概念.ppt(69页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、课程安排承担单位:公共卫生学院卫生统计教研室课 时:理论课:20 学时 实习课:8 学时 总 计:28学时授课教师:俞慧强 第一章 医学统计中的基本概念一、什么是统计学二、为什么医学生要学医学统计学三、统计工作的步骤 四、医学统计资料的来源五、统计资料的类型六、重要的几个基本概念 何为统计学(statistics)?1、搜集资料的方法。2、描述资料的数量特征,揭示数量规律。3、根据小部分资料,对总体特征做出推断。目的:1、正确认识事物。2、为决策提供科学依据。定义一:对象:数据(统计资料)研究数据的搜集、整理、分析、结果解释的方法学揭示数据内在规律的一门方法学。一、统计学(statistics
2、)定义二:统计学是在相对有限的样本数据上,对特定的随机现象作出科学推断的一门方法学。本质:部分 全体 它能帮助我们作出科学的决策。随机现象:在一定条件下,某现象有不确定的结果,可能是这个结果,也可能是其它结果。医学生为什么要学医学统计学统计分析是科研工作中的重要组成部分。统计分析是科研工作中的重要组成部分。医学统计学作为医学生建立统计分析思维的入门课程医学统计学作为医学生建立统计分析思维的入门课程是非常必要的,有利于医学生对临床工作和科学研究是非常必要的,有利于医学生对临床工作和科学研究进行科学的整理和总结,有利于对多种渠道获取的信进行科学的整理和总结,有利于对多种渠道获取的信息进行分析和批判
3、,了解其有用性和局限性。息进行分析和批判,了解其有用性和局限性。某院60例上感病人服用某药前后BUN值(该院参考值:)治疗前后病人的Bun是如何变化的?该药物对肾脏是否安全?上述问题的回答需要利用统计描述和统计推断的有关统计方法,而类似的资料,在临床实践中是非常多见的。作为一个优秀的临床工作者,有必要掌握一些统计方法。例数平均数标准差最小值最大值疗前604.6511.132.86.9疗后604.6461.192.27.0前一后600.0051.18-2.52.5某院60例上感病人服用某药前后BUN值变化(参考值:)访药对肾脏是否安全呢?假定出现疗前正常而疗后异常的比例低于1%则认为此药安全,由
4、上例60例病人的数据能否认为该药安全?此问题需利用统计推断的方法,若假定 该药异常率P=1%(即不安全),则现观察60例病人,出现0例异常的概率为P(x=0)=0.547。若要你做出抉择,你的结论是什么?若观察400例病人,出现0例异常,结论又当如何?P(x=0/p=1%)=0.0179医学工作中常见的统计学问题用乌贝散治疗胃溃疡用乌贝散治疗胃溃疡100100例例,70,70人有效,是否该药有效人有效,是否该药有效率一定是率一定是70%?(70%?(置信区间置信区间)如何判断某新药是否比传如何判断某新药是否比传统药物效果更好?统药物效果更好?(假设检假设检验验)子女为什么象父母,其联子女为什么
5、象父母,其联系强度有多大?系强度有多大?(相关与回相关与回归归)统计学的分类1、数理统计学:研究、揭示随机现象数量规律性的学科,其更关注统计推断的新方法的发展,要求有较多的抽象数学知识作为工具。2、应用统计学:关心如何把数理统计方法应用到特定的领域,如经济学、心理学及公共卫生学等。医学统计学(medical statistics)属应用统计(专业统计),介绍医药卫生领域常用资料的统计分析方法,类似的学课有:卫生统计学(statistics of health)生物统计学(biostatistics)如何学习统计学建立统计思维方法理解基本统计概念和原理掌握具体统计方法认真实习多阅读文献(设计和资
6、料处理方法)应用:分析数据、写论文参考书参考书:1.方积乾主编.卫生统计学.人民卫生出版社,第五版,2003.82.余松林主编.医学统计学.人民卫生出版社.2003.33.卢纹岱、朱一力等主编.SPSS FOR WINDOWS从入门到精通.电子工业出版社4、伯纳德.罗斯纳 著 孙尚拱 译.生物统计学基础.科学出版社统计工作的基本步骤设计(design)收集资料(collection of data)整理资料(sorting data)分析资料(analysis of data)研究数据的搜集、整理、分析、结果表达的科学本课程主要内容:1、analysis of data2、collection
7、 of data3、design统计资料来源:统计资料来源:1、available data(现成数据)2、observation(调查、观察)3、experiment(实验/试验)1、available data(现成数据)不是为某一个具体的研究专门收集;日常工作记录、报表等资料。目的:对某医院某科室05年和06年两年的医疗质量进行总体评价与比较。举例一 分别随机抽取05年与06年该科室某病患者600名与650名,患者年龄构成与病情两年间差别没有统计学意义,观察三项指标分别为疗效、住院天数、费用。判定标准如下表。指标很好好一般差疗效治愈显效好转无效住院日小于1616-2021-25大于25费
8、用(元)小于14001400-18001800-2200大于2200指标很好好一般差合计疗效05年160380204060006年1704101060650住院日05年1802501304060006年20031012020650费用05年1302701307060006年110320120100650两年病人按医疗质量等级的频数分布 2、Observation:观察或调查 目的:A、了解总体的某些特性,即总体参数 B、研究事物之间的相关联系,如病因探讨,患病就诊与经济状况的关系等某疾病的患病情况某生活方式与疾病的关系特点:对观察(研究)对象进行被对观察或调查,特点:对观察(研究)对象进行被对
9、观察或调查,获取所需相关信息获取所需相关信息调查研究的类型:1、普查2、抽样研究3、典型研究举例:总统选举民意测验:总统选举民意测验:1936年,美国总统选举投票前,文摘年,美国总统选举投票前,文摘杂志按照电话号码簿和汽车登记簿上的地杂志按照电话号码簿和汽车登记簿上的地址寄出了址寄出了1000万张询问投票倾向的明信片。万张询问投票倾向的明信片。根据收回的根据收回的200万份结果预测共和党候选万份结果预测共和党候选人兰登将以领先人兰登将以领先15%的得得票率战胜民主党的得得票率战胜民主党候选人罗斯福而选总统。候选人罗斯福而选总统。然而选举结果出乎意料,罗斯福反以超过然而选举结果出乎意料,罗斯福反
10、以超过兰登兰登20%的得票率赢得大选当上总统。文的得票率赢得大选当上总统。文摘杂志声誉扫地,不久就被迫关门。摘杂志声誉扫地,不久就被迫关门。3、Experiment:实验/试验目的:研究一些因素对另一些因素的效应,即当研究因素间的相互作用时,用实验研究。如:研究人持续不睡觉时间与反应能力的关系;研究某药物对体重的影响。实验研究三个基本要素:实验研究三个基本要素:处理因素处理因素受试对象受试对象实验效应实验效应观察处理因素对受试对象所产生的实验效应。实验研究首先需考虑的两个问题:1)如何保证所观察到的实验效应是处理因素产生的,而不是其它因素(非处理因素)的作用。2)如何最有效(钱费、时间等)实现
11、这一目的。(见实验设计内容)一个社会学的研究:1940年,一个美国社会学家进行如下试验。对美国学生进行“宣传教育”,观察学生对外国政府(德国)态度的变化。设计如下:测量态度宣传教育再测量态度试验期间发生了如下历史事件:德国进攻法国研究某减肥药的效果,肥胖病人为试验对象 减肥药(3个月)前体重 后体重此药有效吗?试验组 减肥药(3个月)前体重 后体重对照组 安慰剂(3个月)前体重 后体重 通过设对照组,将处理因素的效应从总的实验效应中分离出来。但其前提是实验组与对照组要均衡,及可能的对实验效应有影响的因素(非处理因素)在组间分布要一致。混杂因素(confounding factor):如某因素对
12、实验效应有影响,而其在组间分布又不均衡,则该因素即为混杂因素。如何实验试验组与对照组的均衡?随机化是一种有效的方法,其含义如下:随机分组:受试对象随机的分配到各组别中随机分配:受试对象随机的接收某种处理保证所观察到的实验效应是处理因素的作用:1)对照:控制非处理因素的有效方法2)随机化:实现组间均衡3)重复:减少随机误差对结果的影响你对如下研究有何看法?一个美国的高中拉丁文教师想证明拉丁文的一个美国的高中拉丁文教师想证明拉丁文的学习对学习英语是有帮助的。学习对学习英语是有帮助的。通过分析学校所有学生标准英语考试成绩,通过分析学校所有学生标准英语考试成绩,发现选修了拉丁文的学生英语成绩平均比未发
13、现选修了拉丁文的学生英语成绩平均比未选修拉丁文的学生高。选修拉丁文的学生高。结论:学习拉丁文对英语的学习是有帮助的结论:学习拉丁文对英语的学习是有帮助的此研究属于试验研究还是调查研究此研究属于试验研究还是调查研究统计资料的类型及相关概念100名高血压病人治疗后的临床记录名高血压病人治疗后的临床记录患者患者 年龄年龄 性别性别 治疗治疗 血型血型 舒张压舒张压 心电图心电图 疗效疗效编号编号 (岁岁)分组分组(kPa)判定判定 1 37 男男A药药 A11.47正常正常 显效显效 2 45 女女对照对照 O12.53正常正常 有效有效 3 43 男男B药药 B10.93正常正常 有效有效 4 5
14、9 女女对照对照 AB14.67异常异常 无效无效 :100 54 女女B药药 B11.73正常正常 有效有效 资料类型资料类型变量变量(Variable)、随机变量随机变量(random Variable)在确定了研究总体之后,研究者对每个观察单位的某项特征进行测量和观测,我们将观察单位的特征称为变量或随机变量。如:血压、年龄、寿命、性别等等。问题:为什么我们称个体的特性为变量?它有哪些特点?随机变量是研究随机试验的有效工具。其具有取值的可变性,又具有取值的随机性。识别变量的类型非常重要,因为不同类型的变量有不同的统计学分析技术。对不同类型 的变量进行研究,可获得不同类型的统计资料。变量的测
15、得值或观察值也叫做资料。资料分类:计量资料、计数资料、等级资料。资料类型不同,其统计分析也不相同。计量资料(measurement data)定义:通过度量衡的方法,测量每一个观察单位的某项研究指标的量的大小,得到的一系列数据资料。特点:有度量衡单位 多为连续性资料计数资料(enumeration data)定义:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。特点:没有度量衡单位 多为间断性资料 等级资料(ranked data)定义:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。特点:每一个观察单位没有确切值各组之间有性质上的差别或程度上的不同。资料
16、分类举例几个基本概念例:假如某地区在例:假如某地区在2000年共有年共有10万个万个12岁正常女孩的岁正常女孩的身高情况,可以采用普查或抽样调查的方法。如用抽身高情况,可以采用普查或抽样调查的方法。如用抽样调查方法,从样调查方法,从10万个万个12岁正常女孩中随机抽取岁正常女孩中随机抽取100个对象,测量她们的身高,通过分析这个对象,测量她们的身高,通过分析这100个女孩的个女孩的身高,推断该地区身高,推断该地区10万个万个12岁正常女孩的身高情况。岁正常女孩的身高情况。在这个研究中涉及如下基本概念:在这个研究中涉及如下基本概念:研究目的:研究目的:2000年某地区年某地区12岁正常女孩的身高
17、情况。岁正常女孩的身高情况。研究对象:研究对象:2000年该地区年该地区10万个万个12岁正常女孩。岁正常女孩。观察单位:观察单位:研究对象中的每个研究对象中的每个12岁正常女孩,也称个体。岁正常女孩,也称个体。观察指标:观察指标:身高(观察指标也称变量)。身高(观察指标也称变量)。观察值:观察值:身高的测量值,也称变量值。身高的测量值,也称变量值。随机:随机:在这在这10万个万个12岁正常女孩中,每个对象被抽取的机会均等。岁正常女孩中,每个对象被抽取的机会均等。总体:总体:2000年该地年该地10万个万个12岁正常女孩身高值的全体。岁正常女孩身高值的全体。样本:样本:随机抽取的随机抽取的10
18、0个个12岁正常女孩身高值构成的集全。岁正常女孩身高值构成的集全。个体变异:个体变异:总体中总体中12岁正常女孩身高值之间的差异。岁正常女孩身高值之间的差异。例:某研究者设计的一项研究内容是:将生后例:某研究者设计的一项研究内容是:将生后17天天的的30只雌性大鼠分为两组,除了给同样的饲料外,只雌性大鼠分为两组,除了给同样的饲料外,一组给水、一组给被研究的饮品,一组给水、一组给被研究的饮品,2周后取子宫秤周后取子宫秤重。这项研究中,观察单位是什么?变量与变量值重。这项研究中,观察单位是什么?变量与变量值是什么?是什么?子宫重量几个重要概念:1、总体与个体 总体(population):统计学中
19、称试图了解和研究的全部个体为总体。个体(individual):可以指人、也可以指动物或学校、工厂等任何观察单位。无限总体(infinite population)有限总体(finite population)2、抽样(sampling)与样本(sample)抽样:从总体抽取出部分个体的过程。样本:抽取的部分个体组成的集合。样本容量(sample size):样本中所含个体的个数。抽样研究(sampling research):为了解总体的情况,从总体中抽取部分个体,由这部分个体(样本)的信息来推断总体的特征。question:怎样的样本才能更好地推断总体?所谓好的样本,是指其具有代表性,样本
20、能代表总体的特征。抽样方法和样本量决定了样本的代表性 抽样方法:随机抽样 样本大小:适中 样本的两重性:1)随机性:由于抽样过程是随机的,所以在 具体抽取之前并不能确定到底会抽到哪个个体,组成样本的个体是随机的,因而样本有随机性。2)确定性:一旦进行了具体抽取,就会得到一组数据,常称这组数据为样本值。两点说明:1)数理统计的理认和推断方法,都是建立在随机抽样的基础之上的。2)实际工作中,随机抽样的方法有很多,常见的有简单随机抽样、分层抽样、系统抽样等,对于不同抽样方法,统计推断方法也不一样。本书主要讨论简单随机抽样的统计推断方法。故以后所指样本如不特别说明,均指简单随机样本。3、参数与统计量(
21、parameter and statistic)参数:总体的统计指标或特征值统计量:由样本所算出的统计指标或特征值 总体参数是事物本身固有的,不变的。统计量随着试验的不同而不同,但统计量的分布是有规律的,这种规律是统计推断的理论基础。参数与统计量举例:参数与统计量举例:举例一:某地举例一:某地20002000年全部正常成年男子的平均红细胞数(年全部正常成年男子的平均红细胞数(4.54.5)即为总体参数,而从该总体中随机抽取的)即为总体参数,而从该总体中随机抽取的144144名正常成年名正常成年男子的平均红细胞数男子的平均红细胞数 4.38 4.38为样本统计量。为样本统计量。举例二:当林肯第一
22、次当选总统,他赢得了举例二:当林肯第一次当选总统,他赢得了18659081865908张选票的张选票的39.82%39.82%。如果我们将所有这些选票的结果看作总体,则。如果我们将所有这些选票的结果看作总体,则39.82%39.82%就是一个参数。就是一个参数。举例三:在一个有举例三:在一个有877877名被调查者的样本中,发现其中的名被调查者的样本中,发现其中的45%45%不会不会雇佣求职申请上有印刷错误的求职者。雇佣求职申请上有印刷错误的求职者。45%45%这个数字是一个统这个数字是一个统计量。计量。一般情况下,参数是未知的,需要用统计量去估计。一般情况下,参数是未知的,需要用统计量去估计
23、。4、同质与变异同质(homogeneity):同一总体的个体,我们称其有同质性。变异(variation):同一总体个体间的差异,我们称其为变异。异质(heterogeneity):不同总体间个体的差异,我们称其为异质。5.误差误差(Error)统计上所说的误差泛指测量值与真真值值之差,样本指标与总体指标之差。主要有以下三种:系统误差、随机测量误差、抽样误差。问题:哪类误差用统计学方法可以控制?为什么?(1)系统误差 概念:指数据搜集和测量过程中由于仪器不准确、标准不规范等原因,造次观察结果呈倾向性的偏大或偏小,这种误差称为系统误差。(2)随机测量误差 概念:由于非人为的偶然因素,对于同一样
24、本多次测定结果不完全一样,结果有时偏大有时偏小,没有倾向性,这种误差叫随机测量误差。特点:没有倾向性,多次测量计算平均值可以减小甚至消除随机测量误差。(3)抽样误差 概念:样本指标与总体指标之间的差别(参数与统计量之间的差别)。特点:有抽样,抽样误差就不可避免。统计上可以计算并在一定范围内控制抽样误差。抽样误差的大小受哪些因素的影响?减少抽样误差的方法:减少抽样误差的方法:(1)改进抽样方法(增加样本的代表性)。(2)增加样本量。(3)选择变异程度较小的研究指标。6、概率(probability)与频率(relative)概率:描述随机事件发生可能性大小的一个度量。其值介于0-1之间。频率:设
25、在相同条件下,独立地重复n次试验,随机事件A出现了f次,则称比值 f/n为随机事件A出现的频率。当n逐渐增大时,频率f/n始终在一个常数左右作微小摆动,则称该常数为随机事件A的概率,记为P(A)或P。历史上有人所做投掷硬币试验:实验者投掷次数正面次数频率Buffon404020480.5069K.person1200060190.5016K.person24000120120.5005 在实际工作中,可将频率作为概率的估计值。但在观察单位较少时,频率的波动性很大,用于估计概率是不可靠的。小概率事件:发生概率小的事件。通常一个事件的发生小于5%,就叫小概率事件。在实践中,认为小概率事件在一次试验中不会发生。小概率事件举例:已知12岁男孩身高小于148厘米的概率是2.3%,现随机抽取一12岁男孩,一般可推断其身高大于148厘米。某药出现胃肠道不良反应的概率小于0.1%,今10人服用此药,可推断没人会出现胃肠道不良反应 P(X0)1%统计学的几个基本概念总结小结与思考问题:统计学是一门方法学,它能帮助我们正确的收集资料、整理资料、分析资料,并由此得出科学的结论;通过本课程的学习,应学会如何描述统计资料,如何由统计资料得出科学的结论。思考问题:有人说“统计量是随机变量”,此话正确否?为什么?本章内容:1、统计学概念及分类(一般了解)2、资料类型及几个基本概念(重点掌握)