《统计分析技巧幻灯片.ppt》由会员分享,可在线阅读,更多相关《统计分析技巧幻灯片.ppt(116页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计分析技巧第1页,共116页,编辑于2022年,星期二一、前言一、前言科学研究:是用新的方法去研究新问题临床科研:常常是研究发病因子与疾病的因果关系,或药物干预与疗效的因果关系真实性是我们追求的最高目标许多类型的误差(选择偏倚,信息偏倚,混杂)都会将研究者引入歧途,偏离真实的结果。观察效果=真实效果+随机误差+混杂第2页,共116页,编辑于2022年,星期二DCCT/EDIC强化血糖控制与冠脉钙化l对象和方法:DCCT后续研究1150例患者随访79年以CT检查冠脉钙化,以钙化评分(CAC)0,100,和200Agatstonunits分组P.Cleary,etal.652-P,63rdADA
2、第3页,共116页,编辑于2022年,星期二Steno-2 研究研究目的目的对有微量白蛋白尿的2型糖尿病患者进行8年多的研究,比较包括行为和药物干预在内的强化多因素达标治疗与常规治疗对心血管疾病的影响第4页,共116页,编辑于2022年,星期二Steno-2研究研究169位有微量白蛋白尿位有微量白蛋白尿的的2型糖尿病患者型糖尿病患者9名患者因名患者因C肽肽600而退出而退出160位患者随机分组位患者随机分组80位患者接受常规治疗位患者接受常规治疗80位患者接受强化治疗位患者接受强化治疗15例死亡例死亡7例发生例发生CVD5例癌症例癌症3例其他原因例其他原因12例死亡例死亡7例发生例发生CVD2
3、例癌症例癌症3例其他原因例其他原因2例自动退出例自动退出1例自动退出例自动退出63例完成研究例完成研究67例完成研究例完成研究第5页,共116页,编辑于2022年,星期二Steno-2 初级终点初级终点:所有心血管疾病所有心血管疾病心血管死亡心血管死亡非致死性心梗非致死性心梗冠脉搭桥冠脉搭桥非致死性中风非致死性中风血管重建血管重建截肢截肢 次级终点次级终点:微血管疾病微血管疾病肾病的进展肾病的进展视网膜病变的进展视网膜病变的进展神经病变的进展神经病变的进展8年后的终点事件年后的终点事件第6页,共116页,编辑于2022年,星期二达到的治疗目标达到的治疗目标糖化血红蛋白糖化血红蛋白6.5%胆固醇
4、胆固醇4.5 mmol/l甘油三酯甘油三酯1.7 mmol/l收缩压收缩压130 mmHg舒张压舒张压80 mmHg8年后达到治疗目标的患者年后达到治疗目标的患者%p=0.06p0.0001p=0.19p=0.001p=0.21Steno-2 研究研究强化组强化组 常规组常规组强化组强化组 常规组常规组强化组强化组 常规组常规组强化组强化组 常规组常规组强化组强化组 常规组常规组第7页,共116页,编辑于2022年,星期二12243648607284960随访时间(月)随访时间(月)危险患者例数危险患者例数常规治疗组常规治疗组强化治疗组强化治疗组808072787074637159665063
5、446141591319危险比危险比 0.47(0.24 0.73);p=0.007常规治疗组常规治疗组强化治疗组强化治疗组初级终点事件的概率初级终点事件的概率初级心血管终点事件初级心血管终点事件第8页,共116页,编辑于2022年,星期二Extrapolation of the time to deterioration of beta-cell functionAdapted from UKPDS 16.Diabetes 1995;44:124958Years from diagnosisBeta-cell function(%)10864202461212100806040200第9页,
6、共116页,编辑于2022年,星期二第10页,共116页,编辑于2022年,星期二第11页,共116页,编辑于2022年,星期二第12页,共116页,编辑于2022年,星期二瑞格列奈与格列齐特l试验目的试验目的-比较经比较经4 4周治疗后周治疗后,瑞格列奈与格列齐特对于瑞格列奈与格列齐特对于2 2型糖尿病患型糖尿病患者胰岛素分泌的疗效试验方法者胰岛素分泌的疗效试验方法-对照性试验对照性试验,共共2020名名2 2型糖尿病患者型糖尿病患者,随机分为两组随机分为两组:-瑞格列奈瑞格列奈1mg tds,1mg tds,每餐前服用每餐前服用-格列齐特格列齐特40mg bd,40mg bd,早餐及晚餐前
7、服用早餐及晚餐前服用-追踪追踪4 4个月个月-参数:参数:HbA1c,HbA1c,空腹血糖空腹血糖,胰岛素胰岛素AUC0-30和AUC0-240 男女男女比例比例平均平均年龄年龄BMIBMIkg/m2kg/m2HbA1cHbA1c瑞格列奈组瑞格列奈组9/19/1515131317.8%7.8%格列齐特组格列齐特组3/73/7585830307.7%7.7%LAWRENCES.etal.1923-PO,63rdADA第13页,共116页,编辑于2022年,星期二瑞格列奈与格列齐特瑞格列奈与格列齐特l试验结果试验结果1:1:两者降低糖化血红蛋白和空腹血糖的作用相似瑞格列奈瑞格列奈格列齐特格列齐特H
8、bA1c(%)HbA1c(%)空腹血糖空腹血糖(mmol/L)(mmol/L)0 0-1-1-2-2-3-3-4-4与基线比较的改变与基线比较的改变1.040.720.891.21 试验结果试验结果2:2:经4个月服用,瑞格列奈显著改善了2型糖尿病患者的胰岛素的1相分泌,而格列齐特无此作用瑞格列奈组胰岛素AUC0-30和AUC0-240明显增加,但格列齐特组没有明显增加(p0.001)第14页,共116页,编辑于2022年,星期二罗格列酮可预防罗格列酮可预防2 2型糖尿病患者发生冠脉再狭窄l对象和方法:随机双盲、前瞻性研究对象为冠脉支架植入的2型糖尿病患者罗格列酮组(4mg/天)45例,56个
9、支架;安慰剂组48例,60个支架从第1次支架植入开始随访6个月植入支架的管腔狭窄程度超过50定义为发生再狭窄SungHeeChoi,etal.82-OR,63rdADA第15页,共116页,编辑于2022年,星期二,p=11.1mmol/l37%IGT,21%IFG,46%NGT糖尿病早期干预试验(EDIT)第19页,共116页,编辑于2022年,星期二l结果:31发展为糖尿病,14失访发生糖尿病的危险性在3个药物治疗组没有差异入选时为IGT的患者,阿卡波糖组糖尿病发病危险性降低(0.66,p=0.046),二甲双胍(1.09,p=0.70)或两药合用(0.72,p=0.27)没有作用。药物干
10、预的效果与患者是IGT或者是IFG有关糖尿病早期干预试验(EDIT)第20页,共116页,编辑于2022年,星期二有的放矢 无病呻吟第21页,共116页,编辑于2022年,星期二在科学的入口处就像在地狱的入口处一样做一项有价值的科研必要的先决条件,是研究者对研究所涉及的领域有广博的知识和深入的了解在此前题下选一个有意义的课题做严密的科研设计进行恰当的统计分析以审慎的态度看研究的结果得到科学的合乎实际的结论。若研究得到的结果不是真理而是缪误,则既害人又害已。第22页,共116页,编辑于2022年,星期二二、选题临床科研系指以病人为研究对象的医学科学研究其目的是为了提高诊断水平和治疗效果,改善预后
11、和对疾病病因做宏观研究。选题是临床科研的起点体现科研设计和实施的指导思想影响临床科研工作的全过程因此在科研过程中自始至终处于主导地位。从这个角度来说,选题比科研方法更重要。第23页,共116页,编辑于2022年,星期二选题就是要正确地发现和提出问题这些问题有的来自于临床实践有的来自文献资料所谓正确就是这些提出的问题要符合科学的认识规律提出新问题、新假设比完成一项科研工作更难没有好的科研假设,再好的科研方法也不会有好的科研成果。第24页,共116页,编辑于2022年,星期二例:提出新问题医生的共识-冠心病来自已知危险因素。但是无已知危险因素的人为什么发生冠心病?冠心病人群血同型半胱氨酸水平显著升
12、高,那末同性半胱氨酸是否是冠心病新的危险因素?使之下降发生冠心病危险是否会下降?选题-同型半胱氨酸是否是冠心病新的危险因素?第25页,共116页,编辑于2022年,星期二我国的临床科研选题:国家科研攻关项目高技术研究发展计划项目个人经验和兴趣立题仅从短期内是否可以完成、是否可以做出结果,发表文章而不是从临床迫切需要解决的问题着眼选题,出文章,但不会产生重大的临床科研成果。第26页,共116页,编辑于2022年,星期二临床科研选题的原则首先是研究的问题要涉及我国的常见病、多发病、危害人民健康较严重的疾病。第二个原则是所选的课题要有创造性和先进性,要选择前人没有解决或没有完全解决的问题。研究的结果
13、应该是前人不明了或不完全明了的。开拓性(独创性)研究最有价值。发展性研究,争鸣性研究也有一定的价值没有探索性,缺乏创造性,只是重复前人做过的工作,不能算作好的科研。第27页,共116页,编辑于2022年,星期二科研工作的特点就是创新选题是一项非常艰苦繁重的工作,没有该领域扎实的理论基础和对国内外有关信息深入了解,不可能有好的科研设想在信息时代,利用各种信息工具,充分掌握该领域国内外的信息和动态,经过充分的思索,是产生好的选题和立题必经之路。第28页,共116页,编辑于2022年,星期二选题必须具有科学性。所提出的新问题、新假设、新思路必须要符合客观规律。临床实践是临床科研选题的源泉:在日常临床
14、实践中,人们无时无刻不面临着许多诊断、治疗、病因和预后估计等问题,诊断方法和治疗措施有待于科学的系统评价,这些课题其中不少可能具有较高的研究价值临床医学已发展成为一门综合性的学科,不仅涉及生物医学,而且涉及临床经济学和医学社会等,这一方面有许多有待研究的临床问题。第29页,共116页,编辑于2022年,星期二最后一个原则是可行性,指研究课题主要技术指标实现的可能性。选题时必须考虑完成课题的条件,包括人力、物力等,如果这些条件不能满足或根本没有条件,即使所选课题有创造性、科学性又具有临床价值,也无望于成功。第30页,共116页,编辑于2022年,星期二临床科研选题时应注意几点:前沿,新颖,最好实
15、用(近5-10年有无类似 工作,或存在某些问题)涉及人群健康的重大问题(发病危险因素,提出新的诊断方法)建立新实验方法(提供研究新手段)确定新药疗效及副作用第31页,共116页,编辑于2022年,星期二三、研究设计科研设计是科研的灵魂严密的设计是取得有价值结果的先决条件从这个意义上说没有“设计”就没有科研。不少回顾性分析,内容包罗万象,是研究无主题的反映:研究者在研究之初对研究要解决的问题即主攻方向心中无数,对研究所报的态度是逮着什么算什么,并不是想通过研究解决某一特定的问题,或不知道通过研究能解决什么问题。这些研究缺乏严格的设计或无设计,这类研究即使有重要的发现也属偶然。第32页,共116页
16、,编辑于2022年,星期二“前瞻性”研究,无前瞻性的设计几年前做了几万人的糖尿病普查,发现了400例糖尿病和500例糖耐量低减,几年后的今天忽然想起这些病例很可能出一篇文章,于是又去调查了一番,找到了200例糖尿病和300例糖耐量低减。写出1.糖尿病人冠心病危险因素分析糖尿病人冠心病危险因素分析2.高危人群糖尿病的危险因素高危人群糖尿病的危险因素.这种研究是残缺不全的随访,并不是前瞻性研究,缺点是难以弥补的。高达50%的失访率会造成严重的信息偏差(informationBias):若是有问题的人召之即来,则发病率会被高估;若严重者已去医院看病不来参加,来的只有轻的病人,则会低估疾病的发病率。第
17、33页,共116页,编辑于2022年,星期二例如糖尿病人群中有许多人合并了高血压、高血脂病不少人已用药物治疗治疗中有的长期坚持用药,有人仅偶尔用药有人血压或血脂一直控制很好,有些人时好时差此时不论以随访的血压、血脂指标,还是以末次随访的指标分析,都不能反映干预对疾病的影响。这些重要混杂因素的干扰,分析的结果常会远离实际情况.第34页,共116页,编辑于2022年,星期二更糟糕的是有些研究者对这种情况非常不以为然,当审稿人提出问题让他们补充此方面材料的,得到的回答是估计服药的人很少,不会对结果发生影响殊不知“差之毫厘,谬之千里,”在你轻易的原谅自己的疏忽的时候,统计学的P值随之发生了改变。第35
18、页,共116页,编辑于2022年,星期二终点事件过少有些研究者为了某种原因,希望尽早发表自己研究的结果,仅随访极短的时间(半年或一年),仅有几个或十几个终点事件(如死亡)就进行多因素分析,寻找危险因素。终点事件过少的这种分析看上去可能条条是道,但其结果往往是不可靠的。应延长随访时间,增加终点事件后再分析Navigntor研究设计出现1000个终点事体时才结题。第36页,共116页,编辑于2022年,星期二为保证科研的成功,一个完整的科研设计应包括以下几项内容:有理论或实用价值的选题选择合适的研究对象制定可靠的测量指标选择科学的统计分析方法若能对结果做恰当的描述,则会得出符合实际的结论。第37页
19、,共116页,编辑于2022年,星期二例1大庆糖尿病研究设计目的:探讨单纯生活方式干预是否可有效预防糖尿病对象:非糖尿病成人样本量:500例随机分组:四组,拉丁方块设计CDED+E随访期:预计8年第0.5年每月,以后每3月随访终点:OGTT判定DM分析:多因素分析排除混杂因素干扰后证实生活方式干预有效。第38页,共116页,编辑于2022年,星期二例2:DPS比大庆研究干预目标体重下降7%例3:DPP干预目标体重下降7%,增加药物干预组第39页,共116页,编辑于2022年,星期二治疗性研究设计的基本要素研究设计的方案要科学:在研究方案的设计上,必须要坚持三条基本原则:随机化的原则(rando
20、mization);对比原则(comparison),设置对照组;盲法原则(blindness)。符合上述三原则者为随机盲法对照试验(randomizedblindcontrolledtrial,RCT)是治疗性研究设计首选方案。第40页,共116页,编辑于2022年,星期二随机化分配的原则的基本要求是每研究对象均有相同的机会被分配到实验组和对照组,使两组具备充分的可比性防止偏倚的干扰和人为的主观干预有效地避免选择偏倚(selectionbias)。第41页,共116页,编辑于2022年,星期二随机化的应用主要用于以下两个方面:从总体中随机抽取样本进行研究。因为在临床研究中,不可能将所有的某种
21、疾病的患者都纳入研究,为了使抽取的样本能代表总体,就必须采用随机抽机样的方法。在随机对照的试验研究中样本的随机化分配(randomassignment)即将研究对象随机分成实验组和对照组。第42页,共116页,编辑于2022年,星期二随机化分组在大多数情况下十分重要,但随机化并非总是有利的和有道理的。在某些情况下有比随机化更重要的东西那就是要满足适应症的要求。适应症不合理,随机化反使结果变糟。第48页,共116页,编辑于2022年,星期二髋关节骨折手术及保守治疗存活率(28天)存活手术保守102/139(74%)34/65(52%)结论结论:手术效果由于保守疗法手术效果由于保守疗法符合适应症不
22、符合适应症存活手术保守手术保守102/129(73%)30/33(91%)1/10(10%)18/82(12.5%)第49页,共116页,编辑于2022年,星期二(一).研究对象的选择要想证实研究者的思想,确定入选和排除标准,选择合理的研究对象是关键的一环。第50页,共116页,编辑于2022年,星期二1.1.研究对象要有代表性2.做疾病患病率的调查,随机化的原则可保证研究样做疾病患病率的调查,随机化的原则可保证研究样本是总体人群的本是总体人群的“缩影缩影”,从而避免结果失真。从某一局部,从而避免结果失真。从某一局部地区地区“整体人体整体人体”调查出的调查出的“率率”如推广到普遍认群,应说如推
23、广到普遍认群,应说明该局部的明该局部的“整体整体”人群与全局的人群结构相似。人群与全局的人群结构相似。3.随随机机化化抽抽样样的的缺缺点点是是研研究究对对象象地地域域较较为为分分散散,每每个个单单位位仅仅有有少少量量病病例例,这这对对于于干干预预治治疗疗的的前前瞻瞻性性研研究究的的病病人人管管理理极极为为不不利利,耗耗费费更更多多人人力力,常常使使研研究究无无法法进进行行。而而在在人人群群较较多多的的社社区区进进行行“整整群群”调调查查,会会在在相相对对较较小小的的地地域域找找到到较较大大样样本本,从从而而有有利利干干预预治治疗疗的的管管理理。如如果果其其人人群群结结构构接接近近全全局局的的人
24、人群群,其其统统计计的的“率率”也也有有重重要参考价值要参考价值。第51页,共116页,编辑于2022年,星期二如果仅为测定一个“率”做几万人的调查则较为浪费人力物力,而随机分层抽样可以以最小的样本,最少的花费取得有代表性的结果。“随机化”的另一缺点是可能有时“随机化”分组得到的两组(或几组)对象的某些参数值不可比,在样本量较小时尤其突出。病例对照研究可保证所选各组对象参考数的平衡,一般来说大样本的随机对照研究试验组资料会有可比性,但有时也会有显著差别。随机化大样本研究基线资料组间不一定可比,如果差别显著,可用分层分析或多因素分析消除混杂因素的影响。第52页,共116页,编辑于2022年,星期
25、二 2.样本含量的估计 队列研究属前瞻性研究,应考虑到失访的可能性,故一般需再加10%的样本量。失访率40%以上,其研究的真实性就会受到严重怀疑。如果失访与暴露或疾病都有联系,那么即使随访率达到80%以上也难以防止偏倚的发生。第53页,共116页,编辑于2022年,星期二3.从生物学医学原理选择持定的合理人群(不犯人群结构错误)例1,看生长激素水平与身高的关系:对2574岁者测GH与身高结果发现GH与身高不相关结论肯定错了因为GH的最重要作用在于促生长原因是人群选择失当GH促生长表现在身高增长期,即儿童期成人身高已不再增高。第54页,共116页,编辑于2022年,星期二例2.在高血压人群研究血
26、压水平对冠心病发生的影响或研究致高血压因子的作用都可能得出假阴性的结果.第55页,共116页,编辑于2022年,星期二例3.G蛋白3基因C825T亚型多态性与血压,胰岛素抵抗,肥胖的相关性:2000年一位作者在血压正常人群未发现该基因多态性与血压相关;2002年Hyperten一文发现该基因多态性与胰岛素抵抗及肥胖相关.因为他选择了高血压高血压人群也未发现该基因多态性与血压相关.(170/105mmHg)在1999年一项大规模的人群调查基础上的包括高血压(43%)和非高血压人群的研究却发现两种不同亚型基因的患者高血压患病率相差3倍(OR=3.43)且独立于年龄性别和体重指数.第56页,共116
27、页,编辑于2022年,星期二4.研究对象中所观察变量的梯度研究某些变量的生物学作用时,这些变量必须有一定梯度,否则会掩盖因果关系。例如研究继发性高血压的病因有研究者发现某些著名的继发性高血压与其公认的病因无关;柯兴氏病高血压与皮质醇水平不相关,活动性肢端肥大症血压与生长激素水平不相关。这些怪事如何解释?材料都是真实可靠的。第57页,共116页,编辑于2022年,星期二问题所有来诊病例是经长期辗转来到研究者单位看病时病情都十分典型,激素水平都很高,该变量梯度很小,掩盖了激素与血压的相关关系。但在激素水平相当人群,能发现病程长短与血压水平有关,也算是发现了激素对血压的影响。若病程长短也相同,还是不
28、会有阳性发现。但若手术后激素水平下降,血压也下降,将治疗前后的病情加以比较则必会发现继发性高血压与激素水平的关系那是因为人为的制造了梯度。第58页,共116页,编辑于2022年,星期二研究肥胖与糖尿病的关系不能仅选择仅选择超重和肥胖的人群(BMI25-30)因为(BMI25-27)与(BMI27-30)的人群糖尿病的患病率可能无明显差别,但与BMI24人群差别会很显著变量的梯度是成功的关键。第59页,共116页,编辑于2022年,星期二5、恰当的入选和排除标准 恰当的入选和排除标准可防止混杂因素的干扰,保证研究结果的科学性,这是在各项研究遵守的。例如,看血压与胰岛关系,不可纳入有心功障碍及肾病
29、患者,否则可结果会有偏差。入组的研究对象的准确诊断,是保证研究质量的最重要和最基本的条件,在研究设计和发表的论著中务必详细交代,但这种选入排除标准应是实事求是的而不是过于苛求。第60页,共116页,编辑于2022年,星期二例:有一重点课题仅考虑入组病例诊断的严格性排除标准竟设计了17项合格的纳入对象约占整个患该病人群的合格的纳入对象约占整个患该病人群的10%左右左右90%左右的患者被排除掉。即使该研究的结果有高度的内在真实性(internalvalidity),其代表性也仅为10%左右。在制订纳入和排除标准时,在保证研究质量的前题下,一定要考虑研究成果的代表性和研究结果推广的受益面。更重要的是
30、这种过度严格的选择会有轻型病人被排除,使研究结果出现偏差。第61页,共116页,编辑于2022年,星期二例:冠心病与胰岛素的关系仅用冠脉造影资料作为诊断标准结果发现冠脉造影(-)者:FINS22mm/ml冠脉造影(+)者:FINS23mm/ml结论是冠心病与胰岛素无关问题出在什么地方?第62页,共116页,编辑于2022年,星期二问题出在“诊断标准”:冠脉造影(-)的人为什么能接受这种不无危险的检查?因为这些人已有许多危险因素或有轻度狭窄但达不到“狭窄的定义”的切点胰岛素促肾上腺素去甲肾分泌、促肾小管重吸收纳,促小动脉内膜增生作用均在早期.有些因素长时间才起升高血压,促生冠心病的作用,到心血管
31、事件终点时,胰岛素水平可仍在高水平,也可能已低下来.没达到“狭窄”切点,只是时间尚短。这并不能说明胰岛素与冠心病无关。第63页,共116页,编辑于2022年,星期二选入排除标准过于苛求例:研究胆石症与胰岛素抵抗的关系(国家自然基金项目):选择对象为l手术证实的初发胆囊胆固醇结石l年龄,性别,BMI相配(!)l血压血压,糖耐量糖耐量,血甘油三脂血甘油三脂,尿酸尿酸,PAI1,尿蛋白量正常(!)第64页,共116页,编辑于2022年,星期二表:胆囊胆固醇结石与胰岛素抵抗的关系结石组结石组对照组对照组P年龄33.9+9.3239.97+9.710.85BMI22+2.4422.14+2.350.23
32、WHR0.83+0.060.81+0.070.05FINS17.6+1.317.8+1.20.72INS2H47.5+1.438.9+1.50.04SBP111.4+11.1102.4+11.90.00InsSenindex-4.37+0.29-4.42+0.250.33结果:未发现胆石症与胰岛素抵抗相关,SBP,INS2H升高是胆石症的危险因素(?)第65页,共116页,编辑于2022年,星期二(二)、选择试验效果测试指标:对测量的方法和指标的要求敏感性要好:对于治疗出现的客观反应,要能敏感地发现并能量度,其敏感性越高越好;特异性要强:对治疗反应的阳性结果要能准确地测量和确定,其特异性越强越
33、好;经济可行:在考虑敏感性和特异性的基础上,应从各种方法比较中,选择经济及可行性良好的测试方法和指标。生物学意义合理:冠脉造影,HBAC看降糖药物疗效。指标的选择要少而精:总之要制订防止偏倚的措施,确保研究的真实性:第66页,共116页,编辑于2022年,星期二在治疗性研究方法中相应的预防和处理的措施如防止选择性偏倚,使用随机抽性与随机分配法;如防止选择性偏倚,使用随机抽性与随机分配法;避免测量偏倚,使用盲法;避免测量偏倚,使用盲法;减少机遇因素的影响,采用限制减少机遇因素的影响,采用限制型及型及型错误水平的方法;型错误水平的方法;有的混杂因素可通过配对及统计分层分析法加以避免或处理;有的混杂
34、因素可通过配对及统计分层分析法加以避免或处理;通过严格培训人员,严格实验仪器、条件和方法以防止混乱;通过严格培训人员,严格实验仪器、条件和方法以防止混乱;通过医学知识教育,改善医疗服务环节,以促进患者的依从性等通过医学知识教育,改善医疗服务环节,以促进患者的依从性等这这些些措措施施和和方方法法均均应应贯贯穿穿整整个个设设计计、执执行行和和资资料料分分析析的的全全过过程程,保保证证研研究究的高质量,从而获得科学的结论。的高质量,从而获得科学的结论。第67页,共116页,编辑于2022年,星期二四.统计分析在我国临床科研的统计学应用中,在统计方法的选择上存在过分强调统计检验而忽略统计学估计的倾向,
35、存在统计方法越复杂越好的片面看法。在发表的医学论文中,大多强调是否得到差别有统计学意义,而较少对测定值进行95%可信区间估计,提及样本量估计及抽样方法、样本代表性问题的文章就更少了在80年代初期,国外医学杂志针对类似的情况曾进行广泛的讨论,提出应重视区间估计的意义而不能将注意力集中在P值是否小于0.05上。第68页,共116页,编辑于2022年,星期二现在大多数的国际医学刊物发表的论文中要求作者同时给出点估计、区间估计和具体的检验统计值,如相对危险度(RelativeRisk,RR,RR值就是暴露人群发病机与非暴露人群发病机率之比,即a/(a+b)与c/(c+b)之比),RR的95%可信限和P
36、值。诸如95%可信限的区间估计可以提供更多有价值的信息但在我国临床科研的统计学应用中尚未引起足够的重视。片面地认为越复杂的统计方法越好,而忽视统计检验方法的适用性和恰当性。第69页,共116页,编辑于2022年,星期二(1)、描述性统计描述性统计分析是统计检验的基础,能提供资料的总体特征,不论在最后的论文报告中描述性统计分析的结果占多大的比重,它都是实际的资料分析过程中的起点它为选择进一步的分析方法如选择合理的变量提供重要的信息,发现原始资料中的错误忽略必须的描述性统计分析是导致统计方法应用不当的原因。第70页,共116页,编辑于2022年,星期二从简单到复杂最基本的分析形式为单个因素的不匹配
37、不分层资料组间比较的分析这是病例对照研究推断性统计的基础。是比较病例组与对照之间危险因素的分布情况,分析其危险因素与患病之间的联系。由于病例和对照只是总体中有代表,并不知道暴露组和非暴露组观察数是多少,无法直接计算真实的患病率,也就无法直接计算RR值,可以估计相对危险度OR,用以来代替RR。第71页,共116页,编辑于2022年,星期二表6饮酒与食管癌病例对照研究资料饮酒饮酒食管癌病例组食管癌病例组对照组对照组合计合计大量a328b258586不饮c107d193300合计435451886将表6的数据代入公式得:OR=ad/bcOR值是两个概率的比值,这一数值范围是从0到无限大的正数。当数值
38、为1时,表示暴露与疾病危险无关联,当数值大于1说明疾病的危险度增加,叫做“正”关联,当数值小于1说明疾病的危险度减少,叫做“负”关联。第72页,共116页,编辑于2022年,星期二(2)、统计分析中变量的选择变量的确定:研究的目的是相看哪两个变量之间的关系(不妨假设一因,一果)例;高血压为因,冠心病为果第73页,共116页,编辑于2022年,星期二A.明确变量的性质 重点和首要的看变量是否为正态分布分析中对变量进行正态分布检验血胰岛素、血脂、生长激素、皮质醇、尿微量白蛋白,骨密度等都常为非正态分布。非正态分布的变量是不能以原始资料进行参数统计分析,此时不进行正态化处理,得出结论会面目全非。第7
39、4页,共116页,编辑于2022年,星期二B.注意变量的动态变化 由于前瞻研究的期限较长,有些长达几年甚至十几年,这类研究中特别要注意变量的自身演变,有些变量是不会变的,如身高;有些因素在“成长”,如血压、血糖;有些变量在某一时期在“成长”,在某时期却在“衰减”,甚至消失,第75页,共116页,编辑于2022年,星期二例:血胰岛素水平从糖耐量正常到糖耐量低减这几年,胰岛素水平在逐渐升高;从糖耐量低减到糖尿病胰岛素水平在下滑;晚期糖尿病胰岛素则衰亡,水平很低第76页,共116页,编辑于2022年,星期二在一个包括NGT、IGT、DM的人群中观察数年期间有的个体胰岛素水平在升高有的胰岛素水平在下降
40、故此在这总人群以基线水平去预测某种疾病自然得不出正确的结论在演变中未变成糖尿病人群中,可以发现胰岛素对某事件的阳性作用,而在IGT演变为糖尿病,尤其是糖尿病病情恶化的人群中,则会看到它的阴性作用。第77页,共116页,编辑于2022年,星期二这种影响的两级分化在极大程度上还会受观察期限的影响:在非糖尿病人群落观察十年,如不删除研究期间恶化为糖尿病的病例,就可能大大低估胰岛素的致病作用在NGT人群观察5年,则不会出现上述偏移对这种消亡中的变量,如不在人群选择和研究时限上加以严格的限制,很难有可靠的结果。第78页,共116页,编辑于2022年,星期二C、决定哪些变量进入多因素分析?过度调整?调整失
41、当?调整不足?第79页,共116页,编辑于2022年,星期二确定重要的变量(包括混杂因素)数量的方法 1.首先可根据自己对所研究领域专业知识的了解初步选择例:XX磷脂酶基因多态性与糖尿病人群合并冠心病的关系对照组糖尿病组糖尿病组+冠心病组病例数383639男/女29/924/1236/3年龄70.8+10.864.8+11.972.7+8.3高血压(有/无)30/819/1717/22BMI23.86+3.4124.96+3.1425.29+2.56?DM病程0?服药0?PON-192BB13.2%11.1%30.8%年龄是必须调整的混杂因素第80页,共116页,编辑于2022年,星期二2.然
42、后加入文献中同类研究必须纳入的变量3.应用逐步回归分析也会发现哪些变量应该选入。有些研究在分析中囊括所有已知变量来做多因素步回归分析,或以为计算机挑出的变量就是最佳变量。其实这是一种误解,计算机挑出的变量受许多因素的影响有些未被计算计挑出的变量有时非常重要(如年龄、性别),所选变量中若不含有这些变量,分析结果可能不会被承认。第81页,共116页,编辑于2022年,星期二D、决定用等级变量还是连续变量 分析中随意决定将原来的连续变量改为等级变量也是常见的错误研究者不明白哪些变量应作为连续变量,哪些变量应作为等级变量分析中将某一变量作为等级变量还是连续变量不是可以随意决定,而是由变量本身的性质决定
43、的。第82页,共116页,编辑于2022年,星期二D、决定用等级变量还是连续变量 将本应作为连续变量的参数改为等级变量有时会丢掉许多有用的信息。决定哪些变量应作为连续变量,哪些变量应作为等级变量应由其与因变量线性相关(pearson)及等级相关(spearman)的结果来决定,线性相关优于等级相关的变量不应以等级变量进入分析。pearson相关优于spearman相关用连续变量较合理。Pearson相关优于spearman相关用分组变量较合理。第83页,共116页,编辑于2022年,星期二E.确定入选变量的数目 入选变量并非入选变量的数目越多研究越严密总的自变量数应由样本数决定(1:10),(
44、对于多因素设计,观测变量数为样本例数的1/5-1/10)。一些作者在分析中自变量的选择目的不明,一共有100个病例,每人有30个变量,就将30个变量都用作为自变量,以为自变量越多,分析水平越高。第84页,共116页,编辑于2022年,星期二注意变量间相互关系作者应十分明确所研究的两个主要变量的关系将可能的混杂因素作为协变量放入模型选入过多变量画蛇添足,徒劳无益,甚至有害选入过多的协变量统计学上称为“过度调整”,这种调整常常掩盖有意义的关联。第85页,共116页,编辑于2022年,星期二作为一个原则,多因素分析中,如不是为什么特殊目的,不宜将两个密切相关的变量放入一个方程进行分析过度调整常会丢失
45、一些有价值的信息。第86页,共116页,编辑于2022年,星期二例如:分析糖尿病的危险因素因变量为:糖尿病自变量为:年龄,性别,体体重重指指数数,腰腰围围,腰腰/臀臀比比值值,收收缩缩压压,舒舒张张压压,个人收入,家庭收入,家庭人口,冠心病史,高脂血症,糖尿病家族史,职业,教育水平等十五项.问题:一些变量定义模糊定义模糊另一些变量间关系密切关系密切结果:会丢失一些有价值的信息。第87页,共116页,编辑于2022年,星期二例如:有的学者在其研究中发现餐后高血糖与糖尿病慢性并发症显著相关,而空腹血糖不显著相关(DiabetesInterventionStudy,DIS1996)。认为只有餐后血糖
46、才重要其实空腹血糖和餐后血糖在糖耐量异常人群高度相关,在进行逐步回归分析中,如将空腹及高后血糖同时做和自变量,统计中仅餐后血糖进入方程,空腹血糖不能进入,并不表明空腹血糖不重要。这种情况下应逐个放入方程,才能不致漏掉重要的危险因素。糖化血红蛋白水平也应与血糖水平密切相关,逐步回归方析中,若一个进入方程,另一个不能进入也不能说,另一指标不重要。这种情况尤其要结合临床考虑,不要做出过于武断的结论。第88页,共116页,编辑于2022年,星期二F.多因素分析方法的选择:多因素分析模式的选择取决于研究的性质:现状研究可选用线性回归和Logistic回归,前瞻性研究选用成比例风险模型或Logistic回
47、归因变量的性质:因变量为连续变量选用线性回归,因度量为分组变量(0,1)选Logistic回归或成比例风险模型。一般说来前瞻性研究的成比例风险模型更为优越。第89页,共116页,编辑于2022年,星期二在使用多元回归分的文章中,常常存在所用分析方法的名称不详(如是Logistic回归还是多元线性回归)、定义不明、自变量选择不恰当的情况。判定统计方法优劣有某些参考指标复相关系数R2(决定系数)是其一。R2接近于1说明引入方程的自变量与应变量相关的效果好。第90页,共116页,编辑于2022年,星期二五.结果判定 应以审视的眼光看待统计分析的结果:为什麽?因为人们常犯下述错误先入为主的一个想法(自
48、己创造的,或别人特别是外国人发表的);在最容易取材的环境中收集病例(常常数量不多,不管或不知有多少因素干扰);统计分析t检验“定终身”,P0.05就皆大欢喜。第91页,共116页,编辑于2022年,星期二五.结果判定 这些研究在做统计学分析时常常是在搞“逼、供、信”:强制一个适当的人群做为研究对象强加给一个不适当的分析方法逼出一个结果并对之深信不疑这些研究是垃圾文章的制造厂。第92页,共116页,编辑于2022年,星期二1.P值的意义:在进行研究和阅读文献时应物别注意P值的大小。但是,P值并没有告诉我们这一性状出现的频率或水平的大小和方向要了解这些信息必须依靠基本统计量基本统计量包括率、均数、
49、标准差等。比较两组(或多组)的率或均数可以了解该性状在组间分布的差异有多大及其变化的方向。在此基础上,结合统计检验的P值和专业知识下结论。在分析评价研究结果时P值和基本统计量都是非常重要的,缺一不可。第93页,共116页,编辑于2022年,星期二观察对象的数量较少时,基本统计量的差别可能很大而P值大于0.05,此时应注意其专业意义。如果这种差别在专业上已非常重要,应考虑继续扩大样本量,直至随机发生这种差别的机率小于5%。当基本统计量的差别较小而观察对象的数量很大时,往往发现组间差异有显著性,此时应特别注意组间差别在专业上有无意义如果这种差异在专业上并无重要意义,即使P值小于0.05,我们也认为
50、其并无重要的意义命题第94页,共116页,编辑于2022年,星期二GLP1及INS分泌的种族差异AA(n=16)Caucasians(n=26)(F/m)15/124/2NSKg22.974.9723.346.97NSBMI46.431.7043.621.39NS?WHR0.860.020.820.01NS?FINS22.13.217.72.0NS?ISI2.540.423.160.29NSAAUC2397448281447814630.05GLPIAUC1175412822191=0.05?结论结论:因敏感性相同因敏感性相同,肥胖度相同肥胖度相同,所以所以INS对对GLP1反应(反应(OGT