《统计学基础与的实现幻灯片.ppt》由会员分享,可在线阅读,更多相关《统计学基础与的实现幻灯片.ppt(83页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计学基础与的实现第1页,共83页,编辑于2022年,星期二在那个温暖的夏日午后在那个温暖的夏日午后第2页,共83页,编辑于2022年,星期二女士品茶试验女士品茶试验o试验:试验:8 8杯奶茶,先加奶(杯奶茶,先加奶(MTMT),和先加茶),和先加茶(TMTM)各半(比例告诉该女士),测试结各半(比例告诉该女士),测试结果。果。o零假设零假设:该女子没有分辨能力;即说对说错:该女子没有分辨能力;即说对说错完全随机。完全随机。第3页,共83页,编辑于2022年,星期二设设x x为说对的杯数为说对的杯数o则则x x的取值只能为的取值只能为0 0,2 2,4 4,6 6,8 8。o取统计量取统计量T
2、 Tx x为猜对的杯数,为猜对的杯数,T T越大说明越能否定越大说明越能否定零假设。则零假设。则x x的概率分布为:的概率分布为:X X值值8 86 64 42 20 0概率概率1/701/7016/7016/7036/7036/7016/7016/701/701/70第4页,共83页,编辑于2022年,星期二对可能结果的解释对可能结果的解释第5页,共83页,编辑于2022年,星期二什么是统计学?什么是统计学?第6页,共83页,编辑于2022年,星期二统计学的统计学的定义定义o大英百科全书大英百科全书:“统计学是一门收集数统计学是一门收集数据、分析数据据、分析数据,并根据并根据数据数据进行进行
3、推断推断的的科学科学和和艺术艺术。最初与政府收集的数据有关。最初与政府收集的数据有关,现在现在包括了范围广泛的方法和理论。包括了范围广泛的方法和理论。”o统计科学百科全书统计科学百科全书:“统计学统计学”这个术这个术语表示语表示“涉及收集、表示和分析涉及收集、表示和分析数据数据的的普遍普遍方法和原理的领域方法和原理的领域”。第7页,共83页,编辑于2022年,星期二收集和分析的收集和分析的对象对象o“数据!数据!数据!数据!数据!数据!”他不耐烦地叫嚷他不耐烦地叫嚷着,着,“没有黏土,我可做不出砖头。没有黏土,我可做不出砖头。”歇洛克歇洛克福尔摩斯(铜山毛榉案)福尔摩斯(铜山毛榉案)o“Dat
4、a!data!data!Data!data!data!”he cried impatiently.he cried impatiently.“I canI cant make t make bricks without clay.bricks without clay.”Sherlock Holmes Sherlock Holmes(The Adventure of The Adventure of the Copper Beechesthe Copper Beeches)第8页,共83页,编辑于2022年,星期二两种数据两种数据o没有变异的数据没有变异的数据汇总分析和数值分析汇总分析和数值分
5、析o有变异的数据有变异的数据概率论与数理统计概率论与数理统计第9页,共83页,编辑于2022年,星期二统计学的统计学的定义定义o在终极的分析中,一切的知识都是历史;在在终极的分析中,一切的知识都是历史;在抽象的基础上,一切的科学都是数学;在理抽象的基础上,一切的科学都是数学;在理性的意义下,所有的判断都是统计学。(性的意义下,所有的判断都是统计学。(C.C.R.RaoR.Rao)o统计学是仅有的系统地研究推断的科学。统计学是仅有的系统地研究推断的科学。(EfronEfron)第10页,共83页,编辑于2022年,星期二研究规律的方法论研究规律的方法论o世界上有三种谎言:谎言,该死的谎言,世界上
6、有三种谎言:谎言,该死的谎言,统统计数据计数据。Benjamin DisraeliBenjamin DisraelioThere are three kinds of lies:lies,damned lies,and There are three kinds of lies:lies,damned lies,and statisticsstatistics.第11页,共83页,编辑于2022年,星期二统计学的统计学的两个性质两个性质o中立的工具:靠中立的工具:靠数据数据说话,而不是说话,而不是理论理论;o分析结果是分析结果是“关系关系”,而不是,而不是“因果因果”。(Association
7、 is not causation.Association is not causation.)第12页,共83页,编辑于2022年,星期二两种研究方案两种研究方案实验实验与与观察观察o对照实验对照实验不同于不同于观察研究。观察研究。o在一个对照试验中,是在一个对照试验中,是研究者决定研究者决定谁将在处谁将在处理组和谁将在对照组。理组和谁将在对照组。o与此相反,在观察研究中,正是与此相反,在观察研究中,正是实验对象自实验对象自己安排己安排他们自己到不同的组去,而他们自己到不同的组去,而研究者只研究者只是观察是观察所发生的情况。所发生的情况。第13页,共83页,编辑于2022年,星期二两种研究方
8、案两种研究方案实验实验与与观察观察o如果没有不可检验的假定的话,根据观察研如果没有不可检验的假定的话,根据观察研究进行因果推断是不可能的。究进行因果推断是不可能的。HollandHollando你在那里所经历的不是一个实验,而是一种你在那里所经历的不是一个实验,而是一种经验。经验。R.A.FisherR.A.Fisher第14页,共83页,编辑于2022年,星期二几个基本概念几个基本概念o观察单位(观察单位(observed unitobserved unit)o总体(总体(populationpopulation)与样本()与样本(samplesample)o观测(观测(observatio
9、nobservation)与变量()与变量(variablevariable)第15页,共83页,编辑于2022年,星期二变量的类型变量的类型o连续型变量(连续型变量(Continuous VariableContinuous Variable)、定)、定量资料(量资料(quantitative variablequantitative variable)o离散型变量(离散型变量(Discrete VariableDiscrete Variable)、分类)、分类变量(变量(Categorical Variable Categorical Variable)或称定性)或称定性资料(资料(qua
10、litative variablequalitative variable)n二分类(二分类(binary variablebinary variable)n离散计数(离散计数(discrete quantitydiscrete quantity)n顺序(顺序(ordinal variableordinal variable)n名义(名义(nominal variablenominal variable)第16页,共83页,编辑于2022年,星期二实例:凤凰城比马印第安人糖尿病的数据实例:凤凰城比马印第安人糖尿病的数据o共共768768个观测,个观测,9 9个变量:个变量:npregnant
11、pregnant 怀孕次数(连续型)怀孕次数(连续型)nglucose glucose 餐后血糖餐后血糖 (连续型)(连续型)nDiastolic Diastolic 舒张压(连续型)舒张压(连续型)nTriceps Triceps 上臂围(连续型)上臂围(连续型)ninsulin insulin 胰岛素剂量(连续型)胰岛素剂量(连续型)nbmi bmi 体质指数(连续型)体质指数(连续型)nDiabetes Diabetes 糖尿病谱系指数(连续型)糖尿病谱系指数(连续型)nAge Age 年龄(连续型)年龄(连续型)ntest test 糖尿病检测结果(离散型)糖尿病检测结果(离散型)第1
12、7页,共83页,编辑于2022年,星期二第一步:审视你的数据第一步:审视你的数据描述性统计描述性统计(descriptive descriptive statisticsstatistics)进来的是垃圾,出去的还是垃圾!进来的是垃圾,出去的还是垃圾!(Garbage in,garbage out!Garbage in,garbage out!)第18页,共83页,编辑于2022年,星期二连续型变量连续型变量o集中趋势(集中趋势(central tendencycentral tendency)n均值(均值(meanmean)n中位数(中位数(medianmedian)n众数(众数(modem
13、ode)第19页,共83页,编辑于2022年,星期二连续型变量连续型变量o离散趋势(离散趋势(tendency of dispersiontendency of dispersion)n极差(极差(rangerange)n百分位数(百分位数(percentilepercentile)、上下四分位数()、上下四分位数(Q QU U,Q QL L)n四分位间距(四分位间距(Inter-quartile rangeInter-quartile range)n方差(方差(variancevariance)与标准差()与标准差(standard standard deviationdeviation)n
14、变异系数(变异系数(coefficient of variationcoefficient of variation)第20页,共83页,编辑于2022年,星期二分类变量的数量化分类变量的数量化 .第21页,共83页,编辑于2022年,星期二分类变量的数量化分类变量的数量化 .第22页,共83页,编辑于2022年,星期二分类变量分类变量o相对数相对数o率率o构成比构成比第23页,共83页,编辑于2022年,星期二Epi InfoEpi Info的实现的实现o数据表:数据表:AnalysisAnalysis模块中的模块中的listlist,meansmeans,frequenciesfreque
15、ncies,summarizesummarize命令;命令;o图:图:AnalysisAnalysis模块中的模块中的graphgraph命令:直方图命令:直方图(histogramhistogram)、条图()、条图(barbar)、饼图)、饼图(piepie)、盒须图()、盒须图(box-whiskerbox-whisker)等)等o(请在本子上记下(请在本子上记下“不好不好”的数据)的数据)第24页,共83页,编辑于2022年,星期二第二步:对异常值的清理第二步:对异常值的清理数据清洗(数据清洗(data cleaningdata cleaning)第25页,共83页,编辑于2022年,
16、星期二数据清洗数据清洗o修改变量值修改变量值o将无价值的数据删除将无价值的数据删除o将某些值重新编码(如缺失值)将某些值重新编码(如缺失值)第26页,共83页,编辑于2022年,星期二Epi InfoEpi Info的实现的实现oAnalysisAnalysis模块中的模块中的listlist(allow updatesallow updates),),assignassign,ifif,delete recodedelete recode命令命令第27页,共83页,编辑于2022年,星期二重复第一、二步重复第一、二步第28页,共83页,编辑于2022年,星期二第三步:定义新的分析变量第三步:
17、定义新的分析变量可能会贯穿你的分析过程的全部!可能会贯穿你的分析过程的全部!第29页,共83页,编辑于2022年,星期二定义新变量定义新变量o将人群按舒张压是否高于将人群按舒张压是否高于9595分为是否高血压分为是否高血压(HPHP,1 1是,是,2 2否)否)o将人群按将人群按bmibmi是否高于是否高于2525分为是否肥胖(分为是否肥胖(fatfat,1 1是,是,2 2否)否)o将人群按年龄分组(将人群按年龄分组(agegageg,2121,3030,4040,5050,6060,7070)o将人群按怀孕次数分组(将人群按怀孕次数分组(pgpg,0 0,1 1,2 2,5 5,1010)
18、第30页,共83页,编辑于2022年,星期二Epi InfoEpi Info的实现的实现oAnalysisAnalysis模块中的模块中的definedefine,assignassign,ifif,recoderecode命令命令第31页,共83页,编辑于2022年,星期二对新变量进行第一、二步对新变量进行第一、二步第32页,共83页,编辑于2022年,星期二第四步:找出变量间的关系第四步:找出变量间的关系统计推断统计推断(inferential statisticsinferential statistics)关系:关系:区别和联系区别和联系第33页,共83页,编辑于2022年,星期二区别
19、(各组间是否不同)区别(各组间是否不同)o连续型变量:连续型变量:nt t检验与检验与u u检验(或称检验(或称z z检验)检验)n方差分析方差分析n秩和检验秩和检验o离散型变量:离散型变量:n2 2检验检验n精确概率精确概率第34页,共83页,编辑于2022年,星期二联系(变量间变化是否一致)联系(变量间变化是否一致)o回归:回归:n线性回归模型;线性回归模型;n对数线性模型;对数线性模型;n其它广义线性模型;其它广义线性模型;第35页,共83页,编辑于2022年,星期二几个基本概念几个基本概念o零假设(零假设(null hypothesisnull hypothesis)与备择假设)与备择
20、假设(alternative hypothesisalternative hypothesis)oP P值(值(P-valueP-value)和检验水准)和检验水准(significance levelsignificance level)oI I类错误(类错误(type I errortype I error)和)和IIII类错误类错误(type II errortype II error)o单尾检验(单尾检验(one tailed testone tailed test)和双尾检验)和双尾检验(two tailed testtwo tailed test)第36页,共83页,编辑于2022
21、年,星期二t t检验的基本思想检验的基本思想o两组均数的差值符合两组均数的差值符合t t分布或正态分布分布或正态分布o如果这个差值超过了如果这个差值超过了t t分布或正态分布的特定分位分布或正态分布的特定分位点(如点(如1.961.96),则认为这个差值过大,即两个均数),则认为这个差值过大,即两个均数的差别有统计显著性。的差别有统计显著性。第37页,共83页,编辑于2022年,星期二方差分析方差分析的基本思想的基本思想o将一个因变量观测值的变动情况进行分解,分为可将一个因变量观测值的变动情况进行分解,分为可用待检变量解释的部分(用待检变量解释的部分(U U)和不能被解释的随机)和不能被解释的
22、随机误差部分(误差部分(Q Q)o如果如果U U的大小与的大小与Q Q有很大的不同,说明这些待检因素有很大的不同,说明这些待检因素带来的变动不能为随机误差来解释,即这些待检因带来的变动不能为随机误差来解释,即这些待检因素对因变量的变动的影响是显著的。素对因变量的变动的影响是显著的。第38页,共83页,编辑于2022年,星期二方差齐性(方差齐性(homogeneityhomogeneity)t t(u u)检验与方差分析)检验与方差分析最根本最根本的条件的条件第39页,共83页,编辑于2022年,星期二基于顺序统计量的非参数检验基于顺序统计量的非参数检验秩和检验秩和检验第40页,共83页,编辑于
23、2022年,星期二顺序统计量顺序统计量第41页,共83页,编辑于2022年,星期二两样本两样本WilcoxonWilcoxon秩和检验秩和检验(多组数据称多组数据称Kruskal-WallisKruskal-Wallis秩和检验秩和检验)第42页,共83页,编辑于2022年,星期二部分渐近相对效率(部分渐近相对效率(AREARE)分布分布均匀分布均匀分布正态分布正态分布LogisticLogistics s重指数分布重指数分布ARE(W,t)ARE(W,t)1 13/3/=0.955=0.9552 2/9/9=1.097=1.0973/23/2ARE(S,t)ARE(S,t)1/31/32/2
24、/=0.637=0.6372 2/12/12=0.822=0.8222 2ARE(W,S)ARE(W,S)3 33/23/24/34/33/43/4第43页,共83页,编辑于2022年,星期二Epi InfoEpi Info的实现的实现oAnalysisAnalysis模块中的模块中的meansmeans命令命令第44页,共83页,编辑于2022年,星期二2 2检验(检验(2222表)的基本思想表)的基本思想第45页,共83页,编辑于2022年,星期二2222表表B BB B合计合计A1A1a ab bm1m1A2A2c cd dm2m2合计合计n1n1n2n2N N第46页,共83页,编辑于
25、2022年,星期二2222表的检验假设表的检验假设oH H0 0:A1A1的率与的率与A2A2的率没有差别;的率没有差别;o即:即:a/m1=c/m2=n1/Na/m1=c/m2=n1/N;o即:在即:在a a的格子里,它的期望数是的格子里,它的期望数是:oT=T=(n1/Nn1/N)m1m1,其它格子类似。,其它格子类似。第47页,共83页,编辑于2022年,星期二2222表表B BB B合计合计A1A1a a(n1m1/Nn1m1/N)b b(n2m1/Nn2m1/N)m1m1A2A2c c(n1m2/Nn1m2/N)d d(n2m2/Nn2m2/N)m2m2合计合计n1n1n2n2N N
26、第48页,共83页,编辑于2022年,星期二当然的想法当然的想法o如果如果H H0 0成立,则四个格子的实际值与期成立,则四个格子的实际值与期望值的望值的差距不应太大。差距不应太大。第49页,共83页,编辑于2022年,星期二2 2检验检验o其中其中A A为实际频数(或记为为实际频数(或记为O O),),T T为理论频数为理论频数(或记为(或记为E E),其值在例数),其值在例数N N较大的情况下符合较大的情况下符合自由度为(自由度为(C C1 1)(R R1 1)的)的2 2分布。分布。第50页,共83页,编辑于2022年,星期二确切概率法(确切概率法(FisherFisher)o计算当前表
27、的概率;计算当前表的概率;o依次增减某格数字,在周边合计不变的情况下,列依次增减某格数字,在周边合计不变的情况下,列出所有可能表格,计算各表概率;出所有可能表格,计算各表概率;o将所有大于等于当前表概率的所有概率相加。将所有大于等于当前表概率的所有概率相加。第51页,共83页,编辑于2022年,星期二分层分层2222表表第52页,共83页,编辑于2022年,星期二Mantel-HaenszelMantel-Haenszel检验检验医院医院药品药品有效有效无效无效合计合计1 1A A121218183030B B151515153030合计合计2727333360602 2A A31319 94
28、040B B34346 64040合计合计6565151580803 3A A161614143030B B151515153030合计合计313129296060第53页,共83页,编辑于2022年,星期二多个率(或构成比)的比较多个率(或构成比)的比较第54页,共83页,编辑于2022年,星期二Epi InfoEpi Info的实现的实现oAnalysisAnalysis模块中的模块中的tablestables命令命令第55页,共83页,编辑于2022年,星期二流行病学相关的统计分析流行病学相关的统计分析第56页,共83页,编辑于2022年,星期二真实性真实性o灵敏度(真阳性率)(灵敏度(
29、真阳性率)(a/n1a/n1)100%100%o特异度(真阴性率)(特异度(真阴性率)(d/n2d/n2)100%100%o假阳性率假阳性率1 1特异度特异度o假阴性率假阴性率1 1灵敏度灵敏度o约登指数(约登指数(YoudenYoudens indexs index)灵敏度特异度)灵敏度特异度1 1试验结果试验结果有病对象有病对象无病对象无病对象合计合计阳性阳性a ab bm1m1阴性阴性c cd dm2m2合计合计n1n1n2n2N N第57页,共83页,编辑于2022年,星期二收益收益试验预测值试验预测值o试验阳性预测值(试验阳性预测值(a/m1a/m1)100%100%o试验阴性预测值
30、(试验阴性预测值(d/m2d/m2)100%100%o试验阳性预测值(真阳性率试验阳性预测值(真阳性率PP)/(真阳性率(真阳性率PP假阳性率假阳性率QQ)试验结果试验结果有病对象有病对象无病对象无病对象合计合计阳性阳性a ab bm1m1阴性阴性c cd dm2m2合计合计n1n1n2n2N N第58页,共83页,编辑于2022年,星期二比值比(比值比(Odds RatioOdds Ratio,OROR)o病例组的暴露比值(病例组的暴露比值(OddsOdds)()(a/n1a/n1)/(c/n1c/n1)o对照组的暴露比值(对照组的暴露比值(OddsOdds)()(b/n2b/n2)/(d/
31、n2d/n2)o以上两个比值的比(以上两个比值的比(OROR)ad/bcad/bcoVarVar(lnORlnOR)=1/a+1/b+1/c+1/d=1/a+1/b+1/c+1/d暴露暴露病例病例对照对照合计合计有有a ab bm1m1无无c cd dm2m2合计合计n1n1n2n2N N第59页,共83页,编辑于2022年,星期二多层多层OROR暴露暴露病例病例对照对照合计合计有有aiaibibim1im1i无无cicididim2im2i合计合计n1in1in2in2iNiNi第60页,共83页,编辑于2022年,星期二相对危险度(率比,相对危险度(率比,RRRR)o病例组的率病例组的率P
32、1P1a/m1a/m1o对照组的率对照组的率P2P2c/m2c/m2o以上两个率的比(以上两个率的比(RRRR)P1/P2P1/P2oVarVar(lnORlnOR)=1/a+1/b+1/c+1/d=1/a+1/b+1/c+1/d暴露暴露病例病例对照对照合计合计有有a ab bm1m1无无c cd dm2m2合计合计n1n1n2n2N N第61页,共83页,编辑于2022年,星期二归因危险度(率差,归因危险度(率差,ARAR)o病例组的率病例组的率P1P1a/m1a/m1o对照组的率对照组的率P2P2c/m2c/m2o以上以上2 2率的差(率的差(ARAR)P1 P1 P2P2暴露暴露病例病例
33、对照对照合计合计有有a ab bm1m1无无c cd dm2m2合计合计n1n1n2n2N N第62页,共83页,编辑于2022年,星期二匹配设计的匹配设计的ORORoORORc/bc/boVarVar(OROR)()(b bc c)2/2/(b bc c)暴露暴露病例有病例有对照无对照无合计合计对照有对照有a ab bm1m1对照无对照无c cd dm2m2合计合计n1n1n2n2N N第63页,共83页,编辑于2022年,星期二Epi InfoEpi Info的实现的实现oAnalysisAnalysis模块中的模块中的tablestables,matchmatch命令命令第64页,共83
34、页,编辑于2022年,星期二线性回归(线性回归(linearlinear regressionregression)第65页,共83页,编辑于2022年,星期二回归模型回归模型第66页,共83页,编辑于2022年,星期二线性回归方程组线性回归方程组第67页,共83页,编辑于2022年,星期二Gauss-MarkovGauss-Markov假设假设o误差项均值为误差项均值为0 0,即,即E(E(i i)=0)=0,i=1,i=1,n,no误差项具有等方差,即误差项具有等方差,即Var(Var(i i)=)=2 2,i=1,i=1,n,no误差是彼此不相关的,即误差是彼此不相关的,即Cov(Cov
35、(i i,j j)=0,)=0,ijij,i i,j=1,j=1,n,no(正态假定)(正态假定)第68页,共83页,编辑于2022年,星期二回归系数的估计回归系数的估计回归模型的最基本目的回归模型的最基本目的第69页,共83页,编辑于2022年,星期二最小二乘估计最小二乘估计(least square estimateleast square estimate)回归参数的估计回归参数的估计第70页,共83页,编辑于2022年,星期二最小二乘法(最小二乘法(1 1)o即要求残差平方和(即要求残差平方和(sum of squares for sum of squares for residual
36、sresiduals,SSRSSR)达到最小。)达到最小。第71页,共83页,编辑于2022年,星期二最小二乘法(最小二乘法(2 2)o即要求对诸即要求对诸i i求偏导数,并使之为求偏导数,并使之为0 0。第72页,共83页,编辑于2022年,星期二(偏)回归系数的解释(偏)回归系数的解释o0 0的意义的意义oi i的意义:当的意义:当XiXi变化变化1 1个单位而其它自变量个单位而其它自变量不变时,不变时,Y Y相应的改变量。相应的改变量。oi i的意义:当的意义:当XiXi经其它自变量经其它自变量调整调整后对后对Y Y的的贡献。贡献。第73页,共83页,编辑于2022年,星期二标准偏回归系
37、数标准偏回归系数第74页,共83页,编辑于2022年,星期二最小二乘法的性质最小二乘法的性质第75页,共83页,编辑于2022年,星期二回归分析假设检验回归分析假设检验第76页,共83页,编辑于2022年,星期二Y Y变异的分解变异的分解第77页,共83页,编辑于2022年,星期二回归方程的方差分析回归方程的方差分析oH H0 0:所有偏回归系数均为:所有偏回归系数均为0 0;oH H1 1:所有偏回归系数不全为:所有偏回归系数不全为0 0;回归方程的方差分析表回归方程的方差分析表SSSSd.f.d.f.MSMSF FLyyLyyn-1n-1U Up pU/pU/p(n-p-1)U/p(n-p
38、-1)U/pQ QQ Qn-p-1n-p-1Q/(n-p-1)Q/(n-p-1)第78页,共83页,编辑于2022年,星期二决定系数和复相关系数决定系数和复相关系数第79页,共83页,编辑于2022年,星期二剩余标准差剩余标准差第80页,共83页,编辑于2022年,星期二偏回归系数的假设检验偏回归系数的假设检验第81页,共83页,编辑于2022年,星期二Epi InfoEpi Info的实现的实现oAnalysisAnalysis模块中的模块中的linear regreesionlinear regreesion命令命令第82页,共83页,编辑于2022年,星期二第83页,共83页,编辑于2022年,星期二