《临床医学科研设计统计分析技巧.pptx》由会员分享,可在线阅读,更多相关《临床医学科研设计统计分析技巧.pptx(191页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、会计学1临床医学科研设计临床医学科研设计(shj)统计分析技巧统计分析技巧第一页,共191页。3.从生物学医学原理选择持定的合理人群从生物学医学原理选择持定的合理人群(不犯人群结构错误)(不犯人群结构错误)研究对象中所观察研究对象中所观察(gunch)变量的梯度变量的梯度 例例1,1,看生长激素水平与身高的关系:看生长激素水平与身高的关系:对对25742574岁者测岁者测GHGH与身高与身高 结果发现结果发现GHGH与身高不相关与身高不相关 结论肯定错了结论肯定错了 因为因为GHGH的最重要作用在于促生长的最重要作用在于促生长 原因是人群原因是人群(rnqn)(rnqn)选择失当选择失当 GH
2、 GH促生长表现在身高增长期,即儿童期促生长表现在身高增长期,即儿童期 成人身高已不再增高。成人身高已不再增高。第87页/共191页第八十八页,共191页。例2:在高血压(或血压正常)人群研究血压水平对冠心病发生的影响或研究致高血压因子(ynz)的作用都可能得出假阴性的结果.第88页/共191页第八十九页,共191页。研研究究某某些些变变量量的的生生物物学学作作用用时时,这这些些变变量量必必须须有一定梯度,否则会掩盖因果关系。有一定梯度,否则会掩盖因果关系。例如:研究继发性高血压的病因例如:研究继发性高血压的病因 有研究者发现有研究者发现(fxin)(fxin)某些某些 著名的继发性高血压与其
3、公认的病因无关:著名的继发性高血压与其公认的病因无关:柯兴氏病高血压与皮质醇水平不相关柯兴氏病高血压与皮质醇水平不相关 活动性肢端肥大症血压与生长激素水平不相关。活动性肢端肥大症血压与生长激素水平不相关。第89页/共191页第九十页,共191页。这些怪事如何解释这些怪事如何解释(jish)(jish)?材料都是真实可靠!?材料都是真实可靠!研究对象中所观察变量没有足够梯度研究对象中所观察变量没有足够梯度 所有来诊病例是经长期辗转来到研究者单位所有来诊病例是经长期辗转来到研究者单位 看病时病情都十分典型,激素水平都很高,看病时病情都十分典型,激素水平都很高,该变量梯度很小,掩盖了激素与血压的相关
4、关系。该变量梯度很小,掩盖了激素与血压的相关关系。第90页/共191页第九十一页,共191页。解决的办法:解决的办法:在在激激素素水水平平相相当当人人群群,若若能能发发现现病病程程长长短短与与血血压压水水平平有有关关,也也算是发现了激素对血压的影响。算是发现了激素对血压的影响。但若病程长短也相同,还是不会有阳性发现。但若病程长短也相同,还是不会有阳性发现。但但若若手手术术后后激激素素水水平平下下降降,血血压压也也下下降降,将将治治疗疗前前后后(qinhu)(qinhu)的的病情加以比较则必会发现继发性高血压与激素水平的关系病情加以比较则必会发现继发性高血压与激素水平的关系 那是因为人为的制造了
5、梯度。那是因为人为的制造了梯度。第91页/共191页第九十二页,共191页。研究肥胖与糖尿病的关系 不能仅选择超重和肥胖的人群(BMI 25-30)因为(yn wi)(BMI 25-27)与(BMI 27-30)的人群糖尿病的患病率可能无明显差别,但与BMI24人群差别会很显著 变量的梯度是成功的关键。第92页/共191页第九十三页,共191页。例例.G.G蛋白蛋白33基因基因C825TC825T亚型多态性与血压亚型多态性与血压,胰岛素抵抗胰岛素抵抗,肥胖的相关性肥胖的相关性:2000 2000年一位作者年一位作者 在血压正常人群未发现在血压正常人群未发现该基因多态性与血压相关该基因多态性与血
6、压相关;2002 2002年年 Hyperten Hyperten一文发现该基因多态性一文发现该基因多态性与胰岛素抵抗及肥胖相关与胰岛素抵抗及肥胖相关.因为他选择了高因为他选择了高血压人群也未发现该基因多态性与血压相血压人群也未发现该基因多态性与血压相关关.(170/105mmHg).(170/105mmHg)在在19991999年一项大规模的人群调查基础上年一项大规模的人群调查基础上的包括高血压的包括高血压(43%)(43%)和非高血压人群的研究和非高血压人群的研究却发现两种不同亚型基因的患者却发现两种不同亚型基因的患者(hunzh)(hunzh)高血压患病率相差高血压患病率相差3 3倍倍(
7、OR=3.43)(OR=3.43)第93页/共191页第九十四页,共191页。第94页/共191页第九十五页,共191页。GNB3 C825T GNB3 C825T多态性多态性 对胰岛素抵抗对胰岛素抵抗(dkng)(dkng)与收缩压相关性的影响与收缩压相关性的影响(第一第一代子女组代子女组)第95页/共191页第九十六页,共191页。GNB3 C825T GNB3 C825T多态性多态性 对胰岛素抵抗对胰岛素抵抗(dkng)(dkng)与舒张压相关性的影响与舒张压相关性的影响(第一代子女组第一代子女组)第96页/共191页第九十七页,共191页。LnIAI-4.21-4.8-5.15-4.2
8、1-4.81-5.15FINS(uIU/ml)12.222.432.512.222.432.5SBP DBP SBP DBP 第第一一代代子子女女825CT/TT基基因因型型组组不不同同胰胰岛岛素素敏敏感感性性及及空空腹腹胰胰岛岛素素水水平与血压的关系平与血压的关系(gun x)(调整年龄、性别)(调整年龄、性别)(n=376)P0.05P0.01P0.001GNB3 C825TGNB3 C825T多态性对胰岛素抵抗与血压多态性对胰岛素抵抗与血压(xuy)(xuy)关联的影响关联的影响(第一代子女组第一代子女组)第97页/共191页第九十八页,共191页。GNB3 C825T GNB3 C82
9、5T多态性多态性 对胰岛素抵抗与收缩压相关性的影响对胰岛素抵抗与收缩压相关性的影响(yngxing)(yngxing)(第一代子女组第一代子女组)第98页/共191页第九十九页,共191页。GNB3 C825T GNB3 C825T多态性多态性 对胰岛素抵抗对胰岛素抵抗(dkng)(dkng)与舒张压相关性的影响与舒张压相关性的影响(第一代子女组第一代子女组)第99页/共191页第一百页,共191页。4 4、设定、设定、设定、设定(sh dn)(sh dn)恰当的入选和排除标准恰当的入选和排除标准恰当的入选和排除标准恰当的入选和排除标准 恰恰当当的的入入选选和和排排除除标标准准可可防防止止混混
10、杂杂因因素素的的干干扰扰,保保证证研究结果的科学性,这是在各项研究遵守的。研究结果的科学性,这是在各项研究遵守的。例例如如,看看血血压压(xuy)(xuy)与与胰胰岛岛关关系系,不不可可纳纳入入有有心心功功障障碍及肾病患者,否则可结果会有偏差。碍及肾病患者,否则可结果会有偏差。第100页/共191页第一百零一页,共191页。4 4、设定恰当的入选、设定恰当的入选、设定恰当的入选、设定恰当的入选(rxun)(rxun)和排除标准和排除标准和排除标准和排除标准 入组的研究对象的准入指标,是保证研究质量的最重要和最基本的条件,在研究设计和发表的论著中务必详细交代。但 这 种 选 入 排 除 标 准(
11、biozhn)应是实事求是的而不是过于苛求。第101页/共191页第一百零二页,共191页。在在制制订订纳纳入入和和排排除除标标准准时时,在在保保证证研研究究质质量量的的前前题题下下,一一定定要要考考虑虑研研究究成成果果的的代代表表性性和和研研究究结结果果推广的受益面。推广的受益面。例例:有一重点课题仅考虑入组病例诊断的严格性有一重点课题仅考虑入组病例诊断的严格性 排除标准竟设计了排除标准竟设计了1717项项 合合格格的的纳纳入入对对象象约约占占整整个个患患该该病病人人群群的的10%10%左左右右(zu(zu yu)yu)90%90%左右左右(zu(zu yu)yu)的患者被排除掉。的患者被排
12、除掉。即即使使该该研研究究的的结结果果有有高高度度的的内内在在真真实实性性(internal internal validityvalidity),其代表性也仅为其代表性也仅为10%10%左右左右(zu(zu yu)yu)。第102页/共191页第一百零三页,共191页。过度严格的选择会有轻型病人被排除,使研究结果出现偏差。例:冠心病与胰岛素的关系仅用冠脉造影资料作为诊断(zhndun)标准结果发现冠 脉 造 影(-)者:FINS 22 mm/ml冠 脉 造 影(+)者:FINS 23 mm/ml结论是冠心病与胰岛素无关问题出在什么地方?第103页/共191页第一百零四页,共191页。问题出在
13、问题出在“诊断标准诊断标准”:”:冠冠脉脉造造影影(-)的的人人为为什什么么能能接接受受这这种种不不无无危危险险的的检查?检查?因为这些人已有许多危险因素!因为这些人已有许多危险因素!或有轻度狭窄但达不到或有轻度狭窄但达不到“狭窄的定义狭窄的定义”的切点的切点 没达到没达到“狭窄狭窄”切点切点,只是时间只是时间(shjin)(shjin)尚短。尚短。这并不能说明胰岛素与冠心病无关。这并不能说明胰岛素与冠心病无关。第104页/共191页第一百零五页,共191页。选入排除标准过于苛求 例:研究胆石症与胰岛素抵抗的关系 (国家自然基金项目):选择对象为l 手术证实的初发胆囊胆固醇结石l 年 龄,性
14、别,BMI相 配(xin pi)(!)l 血压,糖耐量,血甘油三脂,尿酸,PAI 1,尿蛋白量正常(!)第105页/共191页第一百零六页,共191页。表表:胆囊胆固醇结石与胰岛素抵抗的关系胆囊胆固醇结石与胰岛素抵抗的关系(gun x)(gun x)结石组结石组 对照组对照组 P P年龄年龄 33.9+9.32 39.97+9.71 0.85 33.9+9.32 39.97+9.71 0.85BMI 22+2.44 22.14+2.35 0.23BMI 22+2.44 22.14+2.35 0.23WHR 0.83+0.06 0.81+0.07 0.05WHR 0.83+0.06 0.81+0
15、.07 0.05FINS 17.6+1.3 17.8+1.2 0.72FINS 17.6+1.3 17.8+1.2 0.72INS2H 47.5+1.4 38.9+1.5 0.04INS2H 47.5+1.4 38.9+1.5 0.04 SBP 111.4+11.1 102.4+11.9 0.00 SBP 111.4+11.1 102.4+11.9 0.00 Ins Sen index -4.37+0.29 -4.42+0.25 0.33 Ins Sen index -4.37+0.29 -4.42+0.25 0.33结果结果:未发现胆石症与胰岛素抵抗相关未发现胆石症与胰岛素抵抗相关,SBP,
16、INS2HSBP,INS2H升高是胆石症的危险因素升高是胆石症的危险因素(?)(?)第106页/共191页第一百零七页,共191页。(二二二二)、选择、选择、选择、选择(xu(xu nz)nz)试验效果测试指标:试验效果测试指标:试验效果测试指标:试验效果测试指标:选择选择选择选择(xu(xu nz)nz)要求要求要求要求n n关联性:指标与研究目的有本质的联系,应能确切反映处理因素的作用。关联性:指标与研究目的有本质的联系,应能确切反映处理因素的作用。生物学意义合理:冠脉造影,生物学意义合理:冠脉造影,HbA1cHbA1c看降糖药物疗效。看降糖药物疗效。n n灵敏性:指标能正确灵敏性:指标能
17、正确(zhngqu)(zhngqu)反映效应变化的最小数量或最小水平反映效应变化的最小数量或最小水平 。n n特异性:对治疗反应的阳性结果要能准确地测量和确定,其特异性越强特异性:对治疗反应的阳性结果要能准确地测量和确定,其特异性越强越好;尽量选用客观指标作为主要观察指标。越好;尽量选用客观指标作为主要观察指标。n n精确性:包含准确度精确性:包含准确度(效度效度)和精密度和精密度(信度信度)两个方面。两个方面。n n稳定性:变异程度稳定性:变异程度n n经济可行:在考虑敏感性和特异性的基础上,应从各种方法比较中,选经济可行:在考虑敏感性和特异性的基础上,应从各种方法比较中,选择经济及可行性良
18、好的测试方法和指标。择经济及可行性良好的测试方法和指标。n n指标的选择要少而精指标的选择要少而精第107页/共191页第一百零八页,共191页。在治疗性研究方法中相应的预防和处理的措施在治疗性研究方法中相应的预防和处理的措施如防止选择性偏倚,使用随机抽性与随机分配法;如防止选择性偏倚,使用随机抽性与随机分配法;避免测量偏倚,使用盲法;避免测量偏倚,使用盲法;减少机遇因素的影响,采用限制减少机遇因素的影响,采用限制型及型及型错误水平的方法;型错误水平的方法;有的混杂因素可通过配对及统计分层分析法加以避免或处理;有的混杂因素可通过配对及统计分层分析法加以避免或处理;通通过过严严格格培培训训人人员
19、员(rnyun)(rnyun),严严格格实实验验仪仪器器、条条件件和和方方法法以以防防止混乱;止混乱;通过医学知识教育,改善医疗服务环节,以促进患者的通过医学知识教育,改善医疗服务环节,以促进患者的 依从性等依从性等这这些些措措施施和和方方法法均均应应贯贯穿穿整整个个设设计计、执执行行和和资资料料分分析析的的全全过过程,保证研究的高质量,从而获得科学的结论。程,保证研究的高质量,从而获得科学的结论。第108页/共191页第一百零九页,共191页。三三.统计分析统计分析统计分析统计分析 在在我我国国临临床床科科研研的的统统计计学学应应用用中中,在在统统计计方方法法的的选选择择上上存存在在过过分分
20、强强调调统统计计检检验验而而忽忽略略统统计计学学估估计计的的倾倾向向,存存在在统统计方法越复杂越好的片面看法计方法越复杂越好的片面看法(kn f(kn f)。在在发发表表的的医医学学论论文文中中,大大多多强强调调是是否否得得到到差差别别有有统统计计学学意意义义,而而较较少少对对测测定定值值进进行行95%95%可可信信区区间间估估计计,提提及及样样本本量量估计及抽样方法、样本代表性问题的文章就更少了估计及抽样方法、样本代表性问题的文章就更少了 在在8080年年代代初初期期,国国外外医医学学杂杂志志针针对对类类似似的的情情况况曾曾进进行行广广泛泛的的讨讨论论,提提出出应应重重视视区区间间估估计计的
21、的意意义义而而不不能能将将注注意意力力集集中在中在P P值是否小于值是否小于0.050.05上。上。第109页/共191页第一百一十页,共191页。现在大多数的国际医学刊物发表的论文中要求作者同时给出点估计、区间估计和具体的检验统计值,如相对危险度(Relative Risk,RR,RR值就是暴露人群发病机与非暴露人群发病机率之比,即a/(a+b)与c/(c+b)之比),RR的95%可信限和P值。诸如95%可信限的区间估计可以提供更多有价值的信息 但在我国临床科研的统计学应用中尚未引起足够的重视。片面地认为越复杂(fz)的统计方法越好,而忽视统计检验方法的适用性和恰当性。第110页/共191页
22、第一百一十一页,共191页。(1)(1)、描述性统计、描述性统计 描描述述性性统统计计分分析析是是统统计计检检验验的的基基础础,能能提提供供资资料料的的总总体体特特征征,不不论论在在最最后后的的论论文文报报告告中中描描述述性性统统计计分分析析的的结结果果占占多多大大的的比比重重,它它都是实际的资料分析过程中的起点都是实际的资料分析过程中的起点 它它为为选选择择进进一一步步的的分分析析方方法法如如选选择择合合理理的的变量提供重要的信息变量提供重要的信息,发现原始资料中的错误发现原始资料中的错误忽略必须的描述性统计分析忽略必须的描述性统计分析是导致是导致(d(d ozh)ozh)统计方法应用不当的
23、原因。统计方法应用不当的原因。第111页/共191页第一百一十二页,共191页。从简单到复杂从简单到复杂 最最基基本本的的分分析析形形式式为为单单个个因因素素的的不不匹匹配配不不分分层层资料资料(zlio)(zlio)组间比较的分析组间比较的分析 这是病例对照研究推断性统计的基础。这是病例对照研究推断性统计的基础。可可比比较较病病例例组组与与对对照照之之间间危危险险因因素素的的分分布布情情况况,分分析其危险因素与患病之间的联系。析其危险因素与患病之间的联系。由由于于病病例例和和对对照照只只是是总总体体的的代代表表,无无法法直直接接计计算算真真实实的的患患病病率率,也也就就无无法法直直接接计计算
24、算RRRR值值,可可以以估计相对危险度估计相对危险度OROR,用以来代替,用以来代替RRRR。第112页/共191页第一百一十三页,共191页。表表6 6 饮酒与食管癌病例对照研究饮酒与食管癌病例对照研究(ynji)(ynji)资料资料 饮酒饮酒 食管癌组食管癌组 对照组对照组 合计合计大量大量 a 328 b 258 586 a 328 b 258 586不饮不饮 c 107 d 193 300 c 107 d 193 300合计合计 435 451 886 435 451 886 将将表表6 6的的数数据据代代入入公公式式得得:OR=ad/bc OR=ad/bc OROR值值是是两两个个概
25、概率率的的比比值值,这这一一数数值值范范围围是是从从0 0到到无无限限大大的的正正数数。当当数数值值为为1 1时时,表表示示暴暴露露与与疾疾病病危危险险无无关关联联,当当数数值值大大于于1 1说说明明疾疾病病的的危危险险度度增增加加,叫叫做做“正正”关关联联,当当数数值值小小于于1 1说说明明疾疾病病的的危危险险度度减少,叫做减少,叫做“负负”关联。关联。第113页/共191页第一百一十四页,共191页。(2)、统计分析中变量、统计分析中变量(binling)的选择的选择变量的确定:研究的目的是相看哪两个变量之间的关系(gun x)(不妨假设一因,一果)例;高血压为因,冠心病为果第114页/共
26、191页第一百一十五页,共191页。A.A.明确变量明确变量明确变量明确变量(binling)(binling)的性质的性质的性质的性质 重点和首要的看变量是否为正态分布分析中对变量进行正态分布检验(jinyn)血胰岛素、血脂、生长激素、皮质醇、尿微量白蛋白,骨密度等都常为非正态分布。非正态分布的变量是不能以原始资料进行参数统计分析,此时不进行正态化处理,得出结论会面目全非。第115页/共191页第一百一十六页,共191页。B.注意变量的动态变化注意变量的动态变化 由于前瞻研究的期限较长,有些由于前瞻研究的期限较长,有些(yuxi)长达几年甚至十几年,这类长达几年甚至十几年,这类研究中特别要注
27、意变量的自身演变,研究中特别要注意变量的自身演变,有些有些(yuxi)变量是不会变的,如身变量是不会变的,如身高;有些高;有些(yuxi)因素在因素在“成长成长”,如,如血压、血糖;有些血压、血糖;有些(yuxi)变量在某变量在某一时期在一时期在“成长成长”,在某时期却在,在某时期却在“衰衰减减”,甚至消失,甚至消失,第116页/共191页第一百一十七页,共191页。例例:血胰岛素水平血胰岛素水平 从从糖糖耐耐量量正正常常(zhngchng)(zhngchng)到到糖糖耐耐量量低低减减这这几几年年,胰岛素水平在逐渐升高胰岛素水平在逐渐升高;从从糖糖耐耐量量低低减减到到糖糖尿尿病病胰胰岛岛素素水
28、水平平在在下下滑滑;晚晚期期糖糖尿病胰岛素则尿病胰岛素则 衰亡衰亡,水平很低水平很低 第117页/共191页第一百一十八页,共191页。在一个在一个(y(y )包括包括NGTNGT、IGTIGT、DMDM的人群中的人群中观察数年期间观察数年期间 有的个体胰岛素水平在升高有的个体胰岛素水平在升高 有的胰岛素水平在下降有的胰岛素水平在下降故故此此在在这这总总人人群群以以基基线线水水平平去去预预测测某某种种疾疾病病自自然然得得不不出正确的结论出正确的结论 在在演演变变中中未未变变成成糖糖尿尿病病人人群群中中,可可以以发发现现胰胰岛岛素素对对某某事事件件的的阳阳性性作作用用,而而在在IGTIGT演演变
29、变为为糖糖尿尿病病,尤尤其其是是糖尿病病情恶化的人群中,则会看到它的阴性作用。糖尿病病情恶化的人群中,则会看到它的阴性作用。第118页/共191页第一百一十九页,共191页。这种影响的两级分化这种影响的两级分化在极大程度上还会受观察期限的影响在极大程度上还会受观察期限的影响:在在非非糖糖尿尿病病人人群群落落(qnlu)(qnlu)观观察察十十年年,如如不不删删除除研研究究期期间间恶恶化化为为糖糖尿尿病病的的病病例例,就就可可能能大大大大低低估估胰岛素的致病作用胰岛素的致病作用 在在NGTNGT人群观察人群观察5 5年,则不会出现上述偏移年,则不会出现上述偏移 对对这这种种消消亡亡中中的的变变量
30、量,如如不不在在人人群群选选择择和和研研究究时限上加以严格的限制,很难有可靠的结果。时限上加以严格的限制,很难有可靠的结果。第119页/共191页第一百二十页,共191页。对象对象对象对象(duxing)(duxing)和方法和方法和方法和方法1986-19921986-199219861986年年年年 170 170 非糖尿病人非糖尿病人非糖尿病人非糖尿病人 (25-7425-74岁)岁)岁)岁)(107 NGT 63 IGT)(107 NGT 63 IGT)19921992年年年年 126NGT,IGT 44DM 126NGT,IGT 44DM 第120页/共191页第一百二十一页,共19
31、1页。基线基线基线基线OGTTOGTT胰岛素曲线下面胰岛素曲线下面胰岛素曲线下面胰岛素曲线下面(xi mian)(xi mian)基线与基线与基线与基线与6 6年后血压年后血压年后血压年后血压的关系的关系的关系的关系(n=170)(n=170)第121页/共191页第一百二十二页,共191页。非非高高血血压压人人群群基基线线OGTT胰胰岛岛素素曲曲线线下下面面积积与与6年年后后的的收收缩缩压压水水平平(shupng)的关系的关系 (n=126)因变量因变量:随访随访6年后年后SBP R2=0.33自变量SEPAGE(year)0.60390.14010.0001SEX(M=1,F=0)2.62
32、192.95250.3764BMI(kg/m2)0.67680.43470.1223Smokeyes=1,no=0)-0.82212.97490.5414PG2h(mmol/l)-0.61940.83590.4602SBP(mmHg)0.20040.09750.0427IAI-2.26712.27710.3215INSAUC5.92772.06970.0050截距(Intercept)23.6174第122页/共191页第一百二十三页,共191页。.非高血压人群基线 OGTTINSAUC与6年后的DBP水平(shupng)的关系因变量:随访6年后DBP(n=126)R2=0.27自变量SEPA
33、GE(year)0.25680.10340.0145SEX(M=1,F=0)4.37422.18000.047BMI(kg/m2)0.84730.32490.0103Smoke(yes=1,no=0)-0.88572.20160.6882PG2h(mmol/l)-0.42680.62840.4984DBP(mmHg)0.13230.09530.1678IAI-1.57041.70480.3589INSAUC3.13551.55990.0468截距(Intercept)18.8037第123页/共191页第一百二十四页,共191页。C C、决定哪些变量进入多因素、决定哪些变量进入多因素、决定哪些
34、变量进入多因素、决定哪些变量进入多因素(yn s)(yn s)分析分析分析分析?过度调整?调整失当(shdn)?调整不足?第124页/共191页第一百二十五页,共191页。确定确定确定确定(qudng)(qudng)重要的变量(包括混杂因素)数量重要的变量(包括混杂因素)数量重要的变量(包括混杂因素)数量重要的变量(包括混杂因素)数量的方法的方法的方法的方法 1.1.首先可根据自己对所研究领域专业知识的了解初步选择首先可根据自己对所研究领域专业知识的了解初步选择(xu(xu nz)nz)例例:对氧磷脂酶基因多态性与糖尿病人群合并冠心病的关系对氧磷脂酶基因多态性与糖尿病人群合并冠心病的关系 对照
35、组对照组 糖尿病组糖尿病组 糖尿病组糖尿病组+冠心病组冠心病组病例数病例数 38 36 39 38 36 39 男男/女女 29/9 24/12 36/3 29/9 24/12 36/3 年龄年龄 70.8+10.8 64.8+11.9 72.7+8.3 70.8+10.8 64.8+11.9 72.7+8.3高血压高血压(有有/无无)30/8 19/17 17/22)30/8 19/17 17/22 BMI 23.86+3.41 24.96+3.14 25.29+2.56 BMI 23.86+3.41 24.96+3.14 25.29+2.56PON-192 BB 13.2%11.1%30.
36、8%PON-192 BB 13.2%11.1%30.8%年龄是必须调整的混杂因素年龄是必须调整的混杂因素第125页/共191页第一百二十六页,共191页。确定重要确定重要确定重要确定重要(zhngyo)(zhngyo)的变量(包括混杂因素)数量的方的变量(包括混杂因素)数量的方的变量(包括混杂因素)数量的方的变量(包括混杂因素)数量的方法法法法 1.1.首先可根据自己对所研究领域专业知识的了解初步选择首先可根据自己对所研究领域专业知识的了解初步选择 例例:对氧磷脂酶基因多态性与糖尿病人群合并冠心病的关系对氧磷脂酶基因多态性与糖尿病人群合并冠心病的关系 对照组对照组 糖尿病组糖尿病组 糖尿病组糖
37、尿病组+冠心病组冠心病组病例数病例数 38 36 39 38 36 39 男男/女女 29/9 24/12 36/3 29/9 24/12 36/3 年龄年龄(ninlng)70.8+10.8 64.8+11.9 72.7+8.3(ninlng)70.8+10.8 64.8+11.9 72.7+8.3高血压高血压(有有/无无)30/8 19/17 17/22)30/8 19/17 17/22 BMI 23.86+3.41 24.96+3.14 25.29+2.56 BMI 23.86+3.41 24.96+3.14 25.29+2.56?DM?DM病程病程 0?0?服药服药 0?0?PON-1
38、92 BB 13.2%11.1%30.8%PON-192 BB 13.2%11.1%30.8%年龄年龄(ninlng)(ninlng)是必须调整的混杂因素是必须调整的混杂因素第126页/共191页第一百二十七页,共191页。2.2.然后加入文献中同类研究必须纳入的变量然后加入文献中同类研究必须纳入的变量3.3.应用逐步回归分析也会发现哪些变量应该选入。应用逐步回归分析也会发现哪些变量应该选入。有有些些研研究究在在分分析析中中囊囊括括全全部部已已测测变变量量来来做做多多因因素素步步回回归归分分析析,或或以以为为计计算算机机挑出的变量就是最佳变量,是一种误解。挑出的变量就是最佳变量,是一种误解。计
39、计算算机机挑挑出出的的变变量量受受许许多多因因素素的的影影响响,有有些些未未被被计计算算计计挑挑出出的的变变量量有有时时非非常常重重要要(zhngyo)(zhngyo)(如如年年龄龄、性性别别),所所选选变变量量中中若若不不含含有有这这些些变变量量,分分析析结结果果可可能能不会被承认。不会被承认。第127页/共191页第一百二十八页,共191页。变量变量(binling)的选择的选择1、强制进入模型(logistic stepwise);2、Age Age2;3、interation:BMI.INS(BMIINS);4、调整混杂(hnz)因素后的(meanSE);5、调整年龄性别后的率:log
40、istic回归 Model DM=age sex r_BMI 第128页/共191页第一百二十九页,共191页。连续变量连续变量(BMI)改为改为(i wi)分组变量分组变量(r_BMI)1组2组3组4组5组HP=Age Sex r_BMI第129页/共191页第一百三十页,共191页。因果关系与研究对象因果关系与研究对象(duxing)选择及分组选择及分组-BMI HP因 BMI25 BMI25AGESexHPSBPDBP第130页/共191页第一百三十一页,共191页。因果关系与研究因果关系与研究(ynji)对象选择及分组对象选择及分组-HP BMI因 HP0 HP1AgeSexBMITC
41、SMOHPH.s第131页/共191页第一百三十二页,共191页。DD、决定用等级变量、决定用等级变量、决定用等级变量、决定用等级变量(binling)(binling)还是连续还是连续还是连续还是连续变量变量变量变量(binling)(binling)分分析析中中随随意意决决定定将将原原来来的的连连续续变变量量改改为为等等级级(dngj)(dngj)变变量量也是常见的错误也是常见的错误 研研究究者者不不明明白白哪哪些些变变量量应应作作为为连连续续变变量量,哪哪些些变变量量应应作作为等级为等级(dngj)(dngj)变量变量 分分析析中中将将某某一一变变量量作作为为等等级级(dngj)(dng
42、j)变变量量还还是是连连续续变变量量不不是可以随意决定,而是由变量本身的性质决定的。是可以随意决定,而是由变量本身的性质决定的。第132页/共191页第一百三十三页,共191页。D、决定用等级、决定用等级(dngj)变量还是连续变量还是连续变量变量 将将本本应应作作为为连连续续变变量量的的参参数数改改为为等等级级变变量量有有时时(y(y ush)ush)会丢掉许多有用的信息。会丢掉许多有用的信息。决决定定哪哪些些变变量量应应作作为为连连续续变变量量,哪哪些些变变量量应应作作为为等等级级变变量量应应由由其其与与因因变变量量线线性性相相关关(pearson)pearson)及及等等级级相相关关(s
43、pearman)(spearman)的的结结果果来来决决定定,线线性性相相关关优优于于等等级级相相关关的的变变量量不不应应以以等等级级变量进入分析。变量进入分析。pearson pearson 相关优于相关优于spearman spearman 相关相关用连续变量较合理。用连续变量较合理。spearman spearman 相关优于相关优于PearsonPearson相关相关用分组变量较合理。用分组变量较合理。第133页/共191页第一百三十四页,共191页。E.E.确定入选确定入选确定入选确定入选(rxun)(rxun)变量的数目变量的数目变量的数目变量的数目 入选变量并非入选变量的数目越多
44、研究越严密,总的自变量数应由样本数决定(1:10),(对于多因素(yn s)设计,观测变量数为样本例数的1/5-1/10)。一些作者在分析中自变量的选择目的不明,一共有100个病例,每人有30个变量,就将30个变量都用作为自变量,以为自变量越多,分析水平越高。第134页/共191页第一百三十五页,共191页。注意变量间相互关系作者应十分明确所研究的两个主要变量的关系 将可能的混杂因素作为协变量放入模型 选入过多(u du)变量画蛇添足,徒劳无益,甚至有害 选入过多(u du)的协变量统计学上称为“过度调整”,这种调 整常常掩盖有意义的关联。第135页/共191页第一百三十六页,共191页。作为
45、一个原则(yunz),多因素分析中,如不是为什么特殊目的,不宜将两个密切相关的变量放入一个方程进行分析过度调整常会丢失一些有价值的信息。第136页/共191页第一百三十七页,共191页。例如:分析糖尿病的危险因素(yn s)因变量为:糖尿病自变量为:年龄,性别,体重指数,腰围,腰/臀比值,收缩压,舒张压,个人收入,家庭收入,家庭人口,冠心病史,高脂血症,糖尿病家族史,职业,教育水平等十五项.第137页/共191页第一百三十八页,共191页。例如:分析糖尿病的危险因素因变量为:糖尿病自变量为:年龄(ninlng),性别,体重指数,腰围,腰/臀比值,收缩压,舒张压,个人收入,家庭收入,家庭人口,冠
46、心病史,高脂血症,糖尿病家族史,职业,教育水平等十五项.问题:一些变量定义模糊 另一些变量间关系密切结果:会丢失一些有价值的信息。第138页/共191页第一百三十九页,共191页。例例如如:有有的的学学者者在在其其研研究究中中发发现现餐餐后后高高血血糖糖(xutng)(xutng)与与糖糖尿尿病病慢慢性性并并发发症症显显著著相相关关,而而空空腹腹血血糖糖(xutng)(xutng)不不显显著著相相关关(Diabetes Diabetes Intervention Study,DIS 1996)Intervention Study,DIS 1996)。认为只有餐后血糖认为只有餐后血糖(xutng
47、)(xutng)才重要才重要 其其实实空空腹腹血血糖糖(xutng)(xutng)和和餐餐后后血血糖糖(xutng)(xutng)在在糖糖耐耐量量异异常常人人群群高高度度相相关关,在在进进行行逐逐步步回回归归分分析析中中,如如将将空空腹腹及及高高后后血血糖糖(xutng)(xutng)同同时时做做和和自自变变量量,统统计计中中仅仅餐餐后后血血糖糖(xutng)(xutng)进进入入方方程程,空空腹腹血血糖糖(xutng)(xutng)不不能能进进入入,并并不不表表明明空空腹腹血血糖糖(xutng)(xutng)不重要。不重要。这种情况下应逐个放入方程,才能不致漏掉重要的危险因素。这种情况下应逐
48、个放入方程,才能不致漏掉重要的危险因素。糖化血红蛋白水平也应与血糖糖化血红蛋白水平也应与血糖(xutng)(xutng)水平密切相关水平密切相关第139页/共191页第一百四十页,共191页。逐逐步步回回归归方方析析中中,若若一一个个进进入入方方程程,另另一一个个不不能能进进入入也也不不能说,另一指标不重要。能说,另一指标不重要。这这种种情情况况尤尤其其要要结结合合(jih)(jih)临临床床考考虑虑,不不要要做做出出过过于于武武断断的的结论。结论。第140页/共191页第一百四十一页,共191页。F.F.多因素多因素多因素多因素(yn s)(yn s)分析方法的选择:分析方法的选择:分析方法
49、的选择:分析方法的选择:多因素分析模式的选择取决于多因素分析模式的选择取决于 研究的性质:研究的性质:现状研究可选用线性回归和现状研究可选用线性回归和 Logistic Logistic回归,回归,前瞻性研究选用成比例前瞻性研究选用成比例(b(b l)l)风险模型或风险模型或LogisticLogistic回归回归 因变量的性质:因变量的性质:因变量为连续变量选用线性回归,因变量为连续变量选用线性回归,因因度度量量为为分分组组变变量量(0 0,1 1)选选LogisticLogistic回回归归或或成成比比例例(b(b l)l)风险模型。风险模型。一一般般说说来来前前瞻瞻性性研研究究的的成成比
50、比例例(b(b l)l)风风险险模模型型更更为为优越。优越。第141页/共191页第一百四十二页,共191页。在使用多元回归分的文章中,常常存在所用分析方法的名称不详(如是Logistic回归还是多元线性回归)、定义不明、自变量选择不恰当的情况。判定统计方法优劣有某些参考指标复相关系数R2(决定系数)是其一。R2接近(jijn)于1说明引入方程的自变量与应变量相关的效果好。第142页/共191页第一百四十三页,共191页。四四四四.结果结果结果结果(ji gu(ji gu)判定判定判定判定 应以审视的眼光看待统计分析的结果应以审视的眼光看待统计分析的结果:为什麽为什麽?因为人们常犯下述错误因为