《现场调查数据分析幻灯片.ppt》由会员分享,可在线阅读,更多相关《现场调查数据分析幻灯片.ppt(39页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、现场调查数据分析第1页,共39页,编辑于2022年,星期一课程安排课程安排第一讲:现场调查技术概述(设计)(2学时)第二讲:现场调查问卷设计 (2学时)第三讲:现场调查的抽样技术 (2学时)第四讲:现场调查的访谈技巧 (4学时)第五讲:现场调查问卷的数据管理 (4学时)第六讲:现场调查数据的处理与分析技术(4学时)第七讲:现场调查的实施与质量控制技术(2学时)第八讲:现场调查中的综合评价方法 (2学时)第九讲:现场调查研究报告的撰写方法 (2学时)第2页,共39页,编辑于2022年,星期一现场调查数据的处理分析现场调查数据的处理分析 Survey Data Analysis寇长贵寇长贵(讲师讲
2、师)Tel:0431-85619451Mail:流行病与卫生统计学教研室流行病与卫生统计学教研室吉林大学公共卫生学院吉林大学公共卫生学院第3页,共39页,编辑于2022年,星期一主要内容主要内容常用统计学软件介绍常用统计学软件介绍调查数据的分析策略调查数据的分析策略Logistic回归介绍回归介绍实习实习第4页,共39页,编辑于2022年,星期一研究设计研究设计设计设计“问卷问卷”实施调查实施调查收集数据收集数据分析资料分析资料结果解释结果解释撰写论文撰写论文分析数据分析数据数据录入数据录入数据管理数据管理第5页,共39页,编辑于2022年,星期一 Epi Info SAS STATASPSS
3、EpiCalc数据分析数据分析常用统计分析软件第6页,共39页,编辑于2022年,星期一SAS第7页,共39页,编辑于2022年,星期一uSAS系统全称为Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。u在英美等国,能熟练使用SAS进行统计分析是许多公司和科研机构选材的条件之一。u缺点:高昂的价格、不不太太友友好好的的界界面面、非非统统计计学学专专业人员不容易上手业人员不容易上手!第8页,共39页,编辑于2022年,星期一STATA第9页,共39页,编辑于2022年,星期一uSta
4、ta是一个用于分析和管理数据的功能强大又小巧玲珑的实用统计分析软件,由美国计算机资源中心(Computer ResourceCenter)研制。从1985至1998的十四年时间里,已连续推出1.1,1.2,1.3,1.4,1.5,及2.0,2.1,3.0,3.1,4.0,5.0,6.0等多个版本,通过不断更新和扩充,内容日趋完善。它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,又在许多方面别具一格。Stata融汇了上述程序的优点,克服了各自的缺点,使其功能更加强大,操作更加灵活、简单,易学易用,越来越受到人们的重视和欢迎。uStata的突出特点是只占用很少的磁盘空
5、间,输出结果简洁,所选方法先进,内容较齐全,制作的图形十分精美,可直接被图形处理软件或字处理软件如WORD等直接调用。第10页,共39页,编辑于2022年,星期一SPSS第11页,共39页,编辑于2022年,星期一uSPSS是软件英文名称的首字母缩写,原意为StatisticalPackagefortheSocialSciences,即“社会科学统计软件包”。最近,伴随SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已决定将之英文全称更改为StatisticalProductandServiceSolutions,意为“统计产品与服务解决方案”,标志着SPSS的战略方向正在作出重大调整
6、。u20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。u缺点:SPSS采用VB编制,计算速度也远远慢于其他统计软件;其输出结果虽然漂亮,但不能和WORD等常用文字处理软件直接兼容。这些都可以说是SPSS的致命伤。多水平统计模型等问题方面存在一定问题第12页,共39页,编辑于2022年,星期一Epi Info v3.3http:/www.cdc.gov/epiinfo/downloads.htm第13页,共39页,编辑于2022年,星期一开发:(1)WHO的AIDS病全球控制小组(2)CDC流行病
7、学室 免费获得 (1)http:/www.cdc.gov (2)http:/www.epiinfo.it/epiinfo3.asp 最新版本:Epi InfoTM Version3.3 第14页,共39页,编辑于2022年,星期一基本流程基本流程空白调查表空白调查表编编 码码建立调查表建立调查表(.Qes)Make View生成数据库生成数据库生成逻辑检查文件生成逻辑检查文件(.Chk)CheckData1Data2原始资料原始资料比较修改Enter(.Rec)双重输入ValidationAnalyze统统计计分分析析第15页,共39页,编辑于2022年,星期一第16页,共39页,编辑于202
8、2年,星期一第17页,共39页,编辑于2022年,星期一第18页,共39页,编辑于2022年,星期一第19页,共39页,编辑于2022年,星期一第20页,共39页,编辑于2022年,星期一第21页,共39页,编辑于2022年,星期一选择合适的数据管理与分析软件选择合适的数据管理与分析软件SASSAS、SPSSSPSS、Epi-InfoEpi-Info、STATASTATA录入后数据的检查录入后数据的检查错误,遗漏的研究变量取值错误,遗漏的研究变量取值采取补救措施采取补救措施更改,再次询问,查阅档案,重新检测更改,再次询问,查阅档案,重新检测调查数据的分析策略调查数据的分析策略第22页,共39页
9、,编辑于2022年,星期一数据的检查与核对数据的检查与核对检查数据的结构检查数据的结构观测数,变量名称、数量观测数,变量名称、数量检查各变量的取值情况检查各变量的取值情况取值范围取值范围数值变量数值变量最小值(最小值(minimumminimum),最大值(最大值(maximummaximum)均值均值(meanmean),中位数(),中位数(medianmedian),发现异常值(),发现异常值(outlieroutlier)分类变量分类变量其它发现异常的方法:图示法,回归诊断等其它发现异常的方法:图示法,回归诊断等调查数据的分析策略调查数据的分析策略第23页,共39页,编辑于2022年,星
10、期一数据的整理数据的整理数据的分组数据的分组分类变量分类变量/有序变量有序变量按照实际的类别进行分组按照实际的类别进行分组若有必要和合理,可将性质相近的类别合并若有必要和合理,可将性质相近的类别合并数值变量数值变量按照实际的生理,病理,临床和公共卫生意义分组按照实际的生理,病理,临床和公共卫生意义分组分位数分组分位数分组四分位数(四分位数(quartilesquartiles),五分位数(),五分位数(quintilesquintiles)使用的方便程度使用的方便程度/专业惯例分组专业惯例分组例:年龄在某一适宜范围内每例:年龄在某一适宜范围内每5 5或或1010岁一组岁一组调查数据的分析策略调
11、查数据的分析策略第24页,共39页,编辑于2022年,星期一数据的转换数据的转换非正态数据的变量转换非正态数据的变量转换正态性(正态性(normalitynormality)检验)检验UnivariateUnivariate过程过程Q-Q plotQ-Q plot对数、平方根和倒数变换对数、平方根和倒数变换分类变量转换为分类变量转换为哑变量哑变量数据的整理数据的整理调查数据的分析策略调查数据的分析策略第25页,共39页,编辑于2022年,星期一确定拟分析的自变量和因变量确定拟分析的自变量和因变量研究设计阶段有助于选择拟研究的变量,指导研究设计阶段有助于选择拟研究的变量,指导问卷设计问卷设计调查
12、数据的分析策略调查数据的分析策略第26页,共39页,编辑于2022年,星期一普查数据分析思路普查数据分析思路统计应调查人数、实际调查人数,描述漏查率和应答率;统计应调查人数、实际调查人数,描述漏查率和应答率;描描述述调调查查对对象象的的社社会会人人口口学学特特征征,如如性性别别、年年龄龄、民民族族等等基基本本构构成成。计计数数资资料料采采用用构构成成比比(百百分分比比)描描述述,计计量量资资料料采采用用均均数数标标准准差差描述;描述;统统计计调调查查人人群群的的总总体体指指标标,根根据据数数据据类类型型,分分别别描描述述总总体体的的患患病病率率、感感染染率率等等频频率率指指标标,或或总总体体计
13、计量量数数据据的的集集中中和和离离散散趋趋势势指指标标(均均数数标准差、百分位数等);标准差、百分位数等);按按社社会会人人口口学学特特征征或或暴暴露露与与否否分分组组,统统计计、描描述述疾疾病病和和健健康康状状态态相关频率指标;相关频率指标;或按疾病有无描述暴露的构成比;并进行分层和对比分析。或按疾病有无描述暴露的构成比;并进行分层和对比分析。第27页,共39页,编辑于2022年,星期一抽样调查数据分析思路抽样调查数据分析思路 一一般般描描述述:包包括括抽抽样样方方法法、设设计计样样本本量量、调调查查样样本本量量、应应答答率率和和样样本本人群的社会人口学特征等。人群的社会人口学特征等。统计描
14、述:统计描述:计计算算有有关关统统计计指指标标,包包括括患患病病率率、感感染染率率、暴暴露露率率等等频频率率指指标标及及其其95%95%的的可可信区间,计量资料的均数、标准差或百分位数等。信区间,计量资料的均数、标准差或百分位数等。结结合合频频率率指指标标,通通过过图图表表或或文文字字,按按时时间间、地地区区和和人人群群描描述述疾疾病病或或健健康康状状态态的分布。可先按某个因素分层描述,再按多个因素综合描述。的分布。可先按某个因素分层描述,再按多个因素综合描述。关联分析:关联分析:对暴露和疾病的关系可作初步的关联分析对暴露和疾病的关系可作初步的关联分析如如计计量量资资料料的的比比较较采采用用t
15、 t检检验验或或方方差差分分析析(ANOVAANOVA),率率的的比比较较采采用用 2 2检检验验或或u u检检验验。也也可可选选择择适适当当的的自自变变量量和和因因变变量量进进行行多多因因素素分分析析,关关联联的的统统计计推推断断采用采用 2 2检验或检验或LogisticLogistic回归分析。回归分析。第28页,共39页,编辑于2022年,星期一Logistic回归回归 LogisticLogistic回回归归是是一一个个较较好好的的,目目前前常常用用的的,控控制混杂因素的多因素分析方法。制混杂因素的多因素分析方法。LogisticLogistic回回归归中中y y呈呈现现为为二二值值
16、变变量量形形式式。如如发发病病与与不不发发病病,死死与与活活,成成功功与与失失败败,阳阳性性与与阴阴性性,等等等等。当当应应变变量量只只取取二二个个数数值值时时常常记记为为1 1与与0 0,在,在SASSAS的的logisticlogistic回归中最好记成回归中最好记成1 1与与2 2。uY=1Y=1:反应,如:反应,如:发病,死亡,成功发病,死亡,成功uY=2Y=2:不反应,如:不发病,存活,不成功:不反应,如:不发病,存活,不成功第29页,共39页,编辑于2022年,星期一Y Y:反应变量(:反应变量(response variable)response variable)X:X:协协变
17、变量量(covariate),(covariate),解解释释(explanatory)(explanatory)变变量量,伴伴随随变变量量等等,X,X可可以以呈现二值变量的形式呈现二值变量的形式,也可以计量的或等级的指标。也可以计量的或等级的指标。logisticlogistic回回归归是是一一种种概概率率模模型型。设设P P为为Y Y呈呈现现反反应应值值为为1 1的的概概率率,P=P(Y=1),P=P(Y=1),则,则Q=1-P,Q=1-P,为呈现非反应值的概率,为呈现非反应值的概率,Q=P(Y=2)Q=P(Y=2)。P P与各协变量与各协变量X Xi i之间的关系可用下式表示。之间的关系
18、可用下式表示。Logistic回归回归 第30页,共39页,编辑于2022年,星期一发病的概率:发病的概率:P=exp(b0+b1x1+bmxm)/1+exp(b0+b1x1+bmxm)不发病的概率:不发病的概率:Q=1-P=1/1+exp(b0+b1x1+bmxm)P/(1-P)=exp(b0+b1x1+bmxm)定义y=lnP/(1-P)为logit变换,它是比数的自然对数值,则有 y=lnp/(1-p)=b0+b1x1+bmxm Logistic回归回归 第31页,共39页,编辑于2022年,星期一 Logistic回归和多元回归一样,也可用逐步剔选的方法选择变量,使方程内变量都显著,方
19、程外变量都不显著,称为逐步Logistic回归。Logistic回归模型既适用于队列研究,又适用于病例对照研究,也适用于现况调查。Logistic回归回归 第32页,共39页,编辑于2022年,星期一Logistic回归的应用回归的应用1.在在队队列列研研究究中中用用于于预预测测:把把各各协协变变量量代代入入方方程程,得得到到P值值,即发病的概率。即发病的概率。2.因因素素关关联联分分析析:分分析析哪哪些些因因素素(协协变变量量)对对疾疾病病的的发发生生有有显显著著作作用用。对对各各偏偏回回归归系系数数作作显显著著性性检检验验,如如显显著著,则则说说明在排除其它因素的影响后,该因素与发病有显著
20、关系。明在排除其它因素的影响后,该因素与发病有显著关系。3.求求各各因因素素在在排排除除其其它它因因素素的的影影响响后后,对对于于发发病病的的相相对对危危险险度度(或比数比)(或比数比)4.比比较较各各因因素素对对于于发发病病的的相相对对重重要要性性:比比较较各各标标准准化化偏偏回回归归系系数数bi绝对值的大小,绝对值大的对发病的作用也大。绝对值的大小,绝对值大的对发病的作用也大。Logistic回归回归 第33页,共39页,编辑于2022年,星期一 如某因素如某因素X Xi i的偏回归系数为的偏回归系数为b bi i,1 1)则该因素则该因素X Xi i对于发病的比数比为对于发病的比数比为e
21、xp(bexp(bi i)(1)(1)当当X Xi i为二值变量时,如吸烟(为二值变量时,如吸烟(1=1=吸,吸,0=0=不吸)不吸)exp(b exp(bi i)为吸烟对于发病的比数比为吸烟对于发病的比数比(OR)(OR)Logistic回归回归 第34页,共39页,编辑于2022年,星期一2)当Xi为等级变量时,如吸烟(0=不吸,1=少量,2=中等,3=大量)。exp(bi)为每增加一个等级,发病的相对危险度如大量对于不吸其发病的相对危险度为:exp(3bi)3)当Xi为连续变量时,如年龄(岁)exp(bi)为每增加一岁时,发病的相对危险度如60岁相对于35岁其发病的相对危险度为exp(2
22、5bi)Logistic回归回归 第35页,共39页,编辑于2022年,星期一 指标指标 偏回归系数偏回归系数 标准误标准误 P P值值 标准偏回归系数标准偏回归系数常数项常数项 -2.8770 2.0954 0.1697 .-2.8770 2.0954 0.1697 .X3C 2.2844 1.0210 0.0253 0.519452 X3C 2.2844 1.0210 0.0253 0.519452 X5 1.0102 0.3147 0.0013 0.931773 X5 1.0102 0.3147 0.0013 0.931773 X6 1.6321 0.5449 0.0027 0.8373
23、60 X6 1.6321 0.5449 0.0027 0.837360 X8 -0.5764 0.1874 0.0021 -0.917033 X8 -0.5764 0.1874 0.0021 -0.917033 X9 0.000386 0.000186 0.0384 0.392918 X9 0.000386 0.000186 0.0384 0.392918Logistic回归回归 第36页,共39页,编辑于2022年,星期一各指标的相对危险度:各指标的相对危险度:大体类型为浸润对于非浸润大体类型为浸润对于非浸润3年内死亡的相对危险度为:年内死亡的相对危险度为:e2.2844=9.82胃癌深度级
24、别每增加胃癌深度级别每增加1级:级:e1.0102=2.75淋巴结转移级别每增加淋巴结转移级别每增加1级:级:e1.6321=5.11血色素每减少血色素每减少1g/L:e0.5764=1.78白细胞数每增加白细胞数每增加1000个个/mm3:e0.386=1.47Logistic回归回归 从从标标准准偏偏回回归归系系数数的的绝绝对对值值大大小小可可得得:胃癌深度级别,淋巴结转移级别和血色素对于手术后3年生存率的影响较大,胃癌的大体类型和白细胞数淋巴结转移级别和血色素对于手术后3年生存率的影响较小。第37页,共39页,编辑于2022年,星期一LOGISTICLOGISTIC回归方程为:回归方程为:y=ln(P/(1-P)=-2.8770+2.2844大体类型为浸润+1.0102胃癌深度级别+1.6321淋巴结转移级别-0.5764血色素(g/L)+0.000386白细胞数(个/mm3)Logistic回归回归 第38页,共39页,编辑于2022年,星期一用书上的实例实习一下!用书上的实例实习一下!数据库102(课件文件夹)书上的:P226P232Logistic回归回归 第39页,共39页,编辑于2022年,星期一