《流行病与统计学方法基本原理.docx》由会员分享,可在线阅读,更多相关《流行病与统计学方法基本原理.docx(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、流行病与统计学方法基本原理(本节主要面对学习过流行病学与卫生统计学的读者,故对教课书中详述的概念和名词定义再也不重复, 对 有关的公式和计算方法也不涉及。必要时,读者可以参考相应的教课书。为避免翻译不同的误解,某 些名词同时给出了英文。)流行病与统计学方法基本原理可以简述为:用采集、整理、和分析观察数据资料的方法,从群体和环境的 宏观角度来研究有关健康问题,为公共卫生的实际需要服务。1662年英国学者John Graunt (1620- 1674)发表了著名的文章“基于死亡资料的观察”(Natural and Political Observations on the Bills of Mor
2、tality),第一个用数据资料来研究生命问题,常被称为生命统计的奠基人, 若单从方法学来回顾这段历史,也可以看做是流行病学与卫生统计学方法的共同起点。他在处理大量数据 的分析中,阐明了四个重要的现象第一,他记录下了在个体中好像是偶发事件(起码在我们现有知识水平 上,看来是偶发事件),而在群体上却呈现有规律变化的生命现象。第二,他第一个指出人类在孩子出生时男 性多于女性。第三,他描述了人类幼年时期,有着相对较高的死亡率。第四,他发现当时伦敦城市死亡率 高于乡村地区。此外,他还建立了雏形的寿命表。(6)他的这段工作体现了,以定量数学为主要工具,从 社会环境群体现象的角度,来研究有关(健康)问题,
3、而这正是流行病与统计学方法的精要。瑞士数学家J. Bernoulli (1654- 1705)提出了 “大数法则、法国数学家P S Laplace (1749- 1827)促成概率论为数学一个分 支,开辟了数理统计学,(10)从而为应用统计学(包括卫生统计学)提供了严谨的数学基础,大大地丰富了收 集处理观察数据资料的统计理论和方法。近年来计算机和信息科学的发展为统计理论和方法更进一步地开 拓了广阔的乾坤。著名的John Snow (18137858)在1854年对霍乱爆发流行的研究方法,是现代流行病学 方法的先驱,Snow把发病与周围环境状况结合在一起,早Koch发现霍乱弧菌30年,从数量研究
4、群体和 环境的宏观角度找到了霍乱的传播途径,解决了那次霍乱爆发流行预防与控制问题(6) o随着流行病与统 计学方法在防控各种传染病、慢性非传染病、环境和职业卫生问题、公共卫生应急事件处理、以及公共卫 生干估计划的制定、实施和评价中广泛地应用,此方法也得到了发展,成熟为一门公共卫生的基础学科, 对促进以“证据为基础公共卫生决策”和“循证医学”的形成,起到了关键性的作用。流行病学的一个显著的根本性特点,是以每一个人为基本单位,研究的范围是健康(卫生)问题在由多个个 体(单位)组成的群体以及此群体生存宏观环境中的现象和相互联系,有别于把每一个人做外延的终点向身 体内研究其系统器官组织份子的基础医学诸
5、科,也有别于研究微观环境科学中的诸学科(例如,微生物学和 环境毒理学)。流行病学的另一个根本性特点是它的实用性,为公共卫生的实践决策需要服务:流行病学工 作者往往不可能(像实验室工作者那样),去“安排”卫生事件或者环境,而只能充分利用当地现实可行的 方 法,去发现并解决当地的公共卫生问题,所以,流行病学又被称为公共卫生中“运用可行方法的艺术” (2)o流行病学工作者时常性工作是从当地各种公共卫生问题在特定的不同时间、空间、和人群间分布差异 入手,发现主要的公共卫生问题,并找到可以干预的影响此公共卫生问题分布的因素,提出相应的可行 决策,从 而达到为控制此公共卫生问题的实践目的。此外,流行病学的
6、发展始终与统计学的发展密切相伴。流行病学发展中的需求,不断地给统计学提出了 挑战,而统计学的发展又为流行病学提供了定量描绘和分析群体卫生事件及其影响因素的支持性工具技 术。虽然近年来流行病学越来越多地涉及人类行为的研究,加之地理全球定位系统(GPS)的发展,社会 学和人类学现场的“定性研究”也与传统的统计学定量方法结合在一起应用于公共卫生,但是,流行病学 与统计学方法密切结合,运用数学定量方法来处理卫生问题仍然是一个很突出的特征和主要的手段,往 往合起来称 为公共卫生中的“流行病与统计学方法”(2)。我们可以从下面五个方面展开简述流行病与统计学方法基本原理:(1) 流行病与统计学方法起于观察与
7、测量卫生事件,原始数据的质量控制是公共卫生决策的基础(2) 公共卫生实践在于不断地运用流行病与统计学方法提出假说,并检验假说(3) 医学与公共卫生中的随机现象,偶然性大小的概率估计以及各种统计技术工具的作用(4) 复杂群体现象的因果图和偏倚分析(5) 人类独特强大的霍桑(Hawthorne)效应和“安慰剂”作用流行病与统计学方法起于观察与测量卫生事件,原始数据的质量控制是公共卫生决策的基础流行病与统计学方法的第一步,就是对疾病、死亡、健康问题或者卫生事件,在明确定义的基础上,相对 于 其发生的时间、空间和人群,通过观察测量而赋予数字或者数值。可以赋值的范围称为变量的定义域。 对变 量所赋予的数
8、字,只无非是一个数学符号,同一个数学符号在不同变量中代表的意义,可能彻底不 一样。按变量可赋予数字值的性质,变量可分为两分、计数、等级、和计量(计量还可按有无绝对0点、 及连续 还是离散细分)四类,其中两分变量只可赋值为0或者1,既可以看做是计数变量又可以看做是 计量变量。通过改变赋值的方法,一个计量变量可以转换成等级变量,一个等级变量可以转换成计数变 量;但是,反 方向的转换却是不可能的。对疾病、死亡、健康问题或者卫生事件初次赋值,就可得到有关变量的绝对数,两个绝对数通过一次除 法运 算得到的数,称为相对数。人群中的疾病、死亡、健康问题或者卫生事件,除少数罕见疾病用绝对 数之外,多用相对数指
9、标来测量。常用的相对数指标有四类(8):构成比(例)一例如,时点患病率(prevalence rate)和时点感染率,它们是人群(时间点)静态内部某构成部 分,(患病者,阳性者),占观察人群全体(某时点总人口数,受检者总数)的比重。无量纲,取值在零到 壹闭区间内,反映构成概率。发生(频)率 一 例如,积累发病率(accumulative incidence rate)和积累死亡率,它们是一种发生比例,反 映在一定的观察时间内人群中新发生(某病,死亡)者占全体观察人群的比例,是发生频度。无量纲,取 值在零到壹闭区间内,反映发生概率。速率指标例如,风险函数(hazard function),是时点
10、死亡率或者死亡力(force of mortality),用于寿命表 分析。量纲为时间的倒数,取值在零到无穷大,反映的是死亡发生的时点死亡密度,不是概率。类似的 还有 发病密度(incidence densRy)或者发病力(force of morbidity) o比(ratio)例如,比数(Odds),是发生(或者构成)某事件的概率与不发生(或者非构成)此事件的概率 之比值。份子分母是分离的互不包含,量纲可有/可无,取值由具体的情况而异,反映的是份子分母对照 的指数关系。在实际应用中为了便利,有多种近似地估计方法,如用观察期间的平均患病率估计来表示时点患病率估计 值,在此四类基本相对数指标基
11、础上可以派生出多种指标。例如,相对危(wei)险度(Relative Risk- RR)和比数比(Odds Ratio-OR),反映了暴露与疾病之间相关的强度等等。判断某个指标的性质一定要 依据它是如何 测量赋值的,而不能由它的名称猜测。我们可以用某病为例,说明流行病与统计学方法中四类最基本的相对数指标和相互的关系患病率,发病 率,发病密度和疾病比数。如何定义某病是测量病例(相对数份子)的基础,第一步是对此疾病赋予明确的 定义,而后进一步明确(存在或者发生)这些病例相关的人群(相对数分母),从而得到两个基础性相对数指 标:构成比(例)用观察期平均患病率来表示的(时点)患病率,和发生(频)率一定
12、观察时间内的(积 累)发病率。在此基础上,把发病率作为一个连续性变量而对其求时间的导数就可以得到时点发病密度, 而时 点患病构成比数=时点患病率/ (1-时点患病率),(观察时间内)疾病发生比数=(积累)发病率/(1-(积 累)发病率)。对某个稳定人群而言,当观察期短并且发病人数远远小于全体观察人数时(大多数疾病满足 此条件),在此观察期发病密度恒定,则上述四类基本相对数指标有下面的关系:(平均)时点患病构成比数=发病密度*平均患病时间;积累发病率=发病密度在观察期的积分=1-EXP (发病密度*观察时间)。由此还可以近似地估计:时点患病率=发病密度*患病时间;积累发病率=发病密度*观察时间。
13、采集数据的方法可以间接引用常规报告或者现存资料,也可以直接来自观察检测、调查、公共卫生监测或 者筛 查。原始数据的真实、可靠和精确,决定了结果的真实、可靠和精确。所以,整个资料的采集过程, 包括 记录、计算机录入、校对、整理、归纳,都必须实行全面质量保障(total quality assurance)。 最后, 还应对测量的结果(赋值)开展有效性(validity)和可靠性(reliability)分析判断。测量的有效性,有时也翻 译为真实性或者效度,指的是测量得到的数值反映真值的程度;而测量的可靠性,有时也翻译为可重复 性或者信度,指的是反复测量同一真值得到的数值之间的一致性大小。真值常用
14、所谓的“金标准”来表 示。可靠性不是有 效性的充分条件,但却是有效性的必要(前提)条件。在理化测量中常称测量的有效性为 准确度(accuracy)、可靠性为精密度(precision)。当真值是个确定的常数时,多次反复测量同一真值得到的大量测量值的总方差等于系统误差方差与随机误 差方差两者之和。随机误差是指测量无法避免的、均数为零、呈正态分布的偶然性误差。所以,系统误差 方差占测量总方差的比例就是其可靠性的指标,越大可靠性越差。而测量值的均数与真值的差,为绝对测 量误差,绝对测量误差与真值的比为相对测量误差,都是有效性的指标,测量误差越小其测量的有效性越 好。当绝对测量误差为零时,有效性最好,
15、反映本测量为无系统误差,称为无(系统)偏倚测量;反之,当 绝对误差不为零时,称此测量为有偏倚的测量,绝对误差为正值时称为高估偏倚性测量,绝对误差为负值 时称为低估偏倚性测量。有效性分析判断时,要判断有无系统误差、系统误差的方向及大小(即偏倚是否 存在?若有,其方向和大小如何)。当测量的变量是两分变量时,可靠性的指标常用Kappa值,而有效性常用敏感度(sensmvity)和特异度 (spedficity来)评价。当测量的变量是计量变量时,可靠性常用两次独离测量值的相关系数来评价;有效性 常用变量对测量值的回归系数来评价。当真值是个随机变量时(10),测量值的总方差等于真值方差加系统 误差方差加
16、随机误差方差三者之和。可靠性的指标可定义为真值方差与系统误差方差之和占测量总方差的 比例,越大越不可靠;有效性定义为真值方差占测量总方差的比例,越大越有效。当没有“金标准”,真值 无法得到时,可靠性只能用测量本身的可重复性来评价,而有效性也常用表面效度(face validity) 内容效 度(content validty)和结构效度(construct valichty)来估计。(注:另有常用的 区分效度(Discrimination validity)-本质是一种结构效度)公共卫生实践在于不断地运用流行病与统计学方法提出假说,并检验假说运用恰当的图表来描述健康问题或者卫生事件在不同人群间
17、、不同时间、和不同环境空间中的分布是流行 病与统计学方法的基本功。临床病例观察与报告、公共卫生监测、普查、筛查和抽样断面或者患病率调 查、观 察性纵向研究等都是这一类的描述流行病学。所谓的分析流行病学研究,多指对照性观察研究, 例如,生 态学相关性研究(Ecological correlation studies)、对照性断面调查研究或者患病率比较研究、病 例对照研究和其他衍生类型、和前瞻性队列研究及其他类型的队列研究。描述流行病学和分析流行病学 中的各种类型的研究都有一个共同的特征一非试验的观察性研究,这种研究的“自我选择偏倚”的天然 特性使之很难“证明”一个因果关系的存在(2),但是,却可
18、以合理地产生为公共卫生的决策和进一步设 计试验性研究提供有 价值的因果假说,还可以用以支持(或者不支持)某个已经存在的因果假说,从而增强 了(或者减弱了)此因果假说的可能性。公共卫生是一门实践的学科,时常要在不确定性的条件下立刻采 取某种干预行动,特别是在现场应对突发卫生事件(如疾病爆发、急性中毒和传染病流行)中更是如此。 对这种公共卫生干预活动开展流行病与统计学方法指导下的设计和评估,加之其他经过详尽准备的符合 流行病与统计学方法良好设计的试验性和评估研究一起,组成为了以假说检验为特征的“(试验)干预流行病学”和“评估流行病学”,其中包 括类试验研究(Quasi-experimental s
19、tudies)或者无平行对照的干预项目、非随机对照试验或者非随机平行 对照的干 预项目、随机对照社区干预试验和随机对照试验(Random Controlled Trial, RCT)。假说的产生永远只能是“合理的猜测艺术,假说产生(hypothesis generating)性研究不是单纯的描述,也不 是单纯的分析,而是有描述分析、又有评估判断的综合过程。它往往要把各种来源的资料整合在一起来描 述、比较、分析、评估、判断,从中引出某些推论或者假说。产生的假说可信度依赖于它引用的资料性质 来 源和推理方法,流行病与统计学方法提供了运用现有的资料和可行的途径(设计)产生假说的思路方法, 但 是,它
20、只能匡助我们如何去“合理的猜出”,却无法教会我们如何去“合理的推出”,可信度高的假说。 假说检验(hypothesis testing)性研究,是严格的逻辑推理和经验实证的考核过程。或者用现有资料,或者引 用设 计新的(干预)研究方案并实施此方案获得新的信息,在此基础上,运用严格的逻辑推理对某假说在 多大程 度上可能是对的(即逻辑的矛盾存在提示了假说的缺陷),运用实践经验进行“否证(falsify)”此假说 的检验判断(即经验结果可以否定某假说,虽然无法“证明”一个假说)。流行病与统计学方法提供了评 估各种来源资料的原理,以及检验公共卫生实践意义上的因果假说推理方法,可以说是一门公共卫生实 践
21、中的“群体生态思维推理方法学”。以“描述流行病学”和“分析流行病学”为主的假说产生性研究,目的在于找到既可以合理解释卫生事件分 布差异,又可以实施公共卫生干预的因素,从而为公共卫生决策提供了合理可行的参考选择,又为以“(试 验)干预流行病学”和“评估流行病学”为主的假说检验性研究打下基础,明确定义了的需要检验的假说。 而实施公共卫生干预及假说检验性研究的结果,又为进一步假说产生性研究提供了素材。就这样,假说产 生和假说检验互相结合在一起,交替进行构成为了整个公共卫生实践过程。流行病与统计学方法,为此过 程 是建造在以“证据”为基础上的,做出了重要贡献;反过来,以“证据”为基础的公共卫生实践,又
22、推 动了流行病与统计学方法的发展。在实际工作中,有许多中间状态和综合性研究,按照具体设计和实施的状况,不难对其性质赋予评估。实 践也不可能等待百分之百的把握才去决策,公共卫生和医学中的干预决策总是在一定风险概率下带有探索 研究性的。每种研究都有自身的优点和限制,而每一个具体研究又随实际情况,各有差异。不涉及某研究 详 细的设计和实施的细节,是无法判断此研究的具体价值和意义的,所以,我们只能就研究类别对因果 推论有效性价值贡献大小为条件做普通地讨论。任何来源的资料,原则上都可以用来进行假说的产生,或者假说的检验。但是,从设计的原始目的而言, 公 共卫生(试验)干预类研究主要是假说检验性研究,其中
23、以良好设汁的随机对照试验,假说检验性价值最 高,其余的则假说检验价值顺序下降。对照观察研究中的队列研究和病例对照研究,对照性断面调查研究、 生 态学相关性研究、观察性纵向研究以及断面调查和公共卫生监测资料,也常用来对某假说进行检验,但 是,其假说检验性价值较低,它们和其他单纯描述研究一起,主要还是用于假说产生性研究,而其中队 列研究和病例对照研究,在公共卫生假说产生中价值最高,其余的则价值顺序降低。1976年英国心理学家Glass命名的Meta分析(常译为系统整合,荟萃分析或者汇总分析),现在发展成一 种全面系统采集文献,严格评估,减少偏倚,估计误差,力求推论的客观真实可靠的综合分析(1)。由
24、 Meta分析在定量地整合多个随机临床试验上的总疗效,逐步推广到整合对某诊断效度的估计,整合多种 对照性 观察研究,得到的综合相对危(wei)险度(RR)或者比数比(OR),以及从多个描述性研究,得到整 合的发病率或者病死 率。现在,这种系统整合从定量扩大到定性,要求假说的产生是最大限度地合理(全 部证据基础上)的猜测,并且,包括误差与偏倚分析,以及对结论的敏感性评估。科学的发展总是在合理的猜测与严格的检验交替中前进,而且始终保持着批评性的怀疑眼光暂时接受某假 说,随时准备着按照新发现的事实,修正或者推翻己经接受了但是却被事实否证了的假说,转而接受“到 目前为止,没有被否证的假说”,或者开始新
25、一轮的假说猜测与检验征途。流行病与统计学方法对公共 卫生 和医学的主要贡献之一,就是引入了这种以“证据”为决策基础的思维范式(paradigm)。其中流行病 和统计学家的主要职责,可以用一句话来概括,那就是:采集已有的相关资料,通过描述和分析这些“证 据”,和其他专业同事们一起讨论,做出合理的推论或者对某假说设计出可行的检验方案,供下一步公共卫生和医 学的决策参考。医学与公共卫生中的随机现象,偶然性大小的概率估计以及各种统计技术工具的作用公共卫生和医学中的许多事件可以有多种的结果,这种事件在个体上会有什么结果呈现为无规律,但是, 当这种个体无规律的事件在随着观察由此个体组成的群体量增加时.,该
26、事件各种可能结果会发生的可能性 却呈现出确定性分布规律。概率是可能性的数学表达,它是一个可以取值(定义域)在0到1闭区间的无量 纲的数,当某结果发生概率等于1时,此结果绝对发生,而概率为0时,此结果绝对不发生,否则,发生 此结果的可能性处于0到1之间。发生某结果概率为0或者1的事件,称为确定性事件,而在个体结果呈 现为无规律,而群体呈现多种结果有确定性概率分布规律的事件,称为随机偶然事件(简称随机事件), 若不 但个体呈现为无规律,群体也不呈现确定性概率分布规律的事件,称为混沌(chaos)事件。群体呈现 的多种结果概率分布,就是对个体发生该事件的各种可能结果可能性大小的估计,或者说是对此随机
27、事 件偶然性的估计。例如,群体身高得到的均数,是这人群身高在个体最大可能性浮现的数值;从群体得到 的患病率、发病率和死亡率,反映了此群体每一个体患某病、发生某病、及死亡的可能性,这些都称为 相应的随机公共卫生事件统计参数。统计学提供了大量可以定量地估计比较这种随机事件统计指标的技术 和方法,从而 公共卫生和医学中个体呈现无规律的随机现象,就可以用概率的语言对偶然性大小进行估 计,以群体呈现的统计参数来定量地测量、描述、比较、分析和研究了。随机事件的概率本质,向来有两种不同的理解(3)。一种看法是一随机事件的多种可能结果受到(总体)系统 内部大量无法控制的因素影响,这些影响因素和它们的作用是确定
28、的,所以尽管在个体下无规律,而随着 抽取样本量的增加,各种可能结果的相对频数的极限就是概率分布,各种可能结果的概率是随机事件(总体) 系统的内在本质性特征,是随机事件(总体)系统的一个物理常数与测量方法和系统外部无关。另一种看法 是随机事件各种可能结果的概率是我们己知证据基础上的相信程度的度量,运用某测量获得证据之后的 验后概率可以由Bayes定理对验前概率进行测量似然函数(Likelihood function)修正而得,对随机事件各 种可能结果彻底不知道时,Laplace提出了用等概率表示验前概率(Bayes公设),验后概率与测量方法高 度相关(正比于测量似然函数),随机事件的概率(分布)
29、不是系统的内在本质性特征,而是证据支持对随 机事件各种可能结果某陈述的可相信程度。由第一种看法,统计就是分析获得的样本信息对总体特性进行 统计判断的过程,由此诞生了 “判断统计学”,由样本信息对总体参数作统计判断(Statistical inference)。而 由第二种看法,统计是依据现有信息来决策的假设检验过程,由此产生了 Bayes统计学依据测量的似然函数在某假设可相信程度下进行统计决策(Statistical decision making)o这两种观点都推动了统计学的 发展,正如物理学中既可以把光看做“粒子”,又可以看做“场”一样,采取N.Bonr的互补原理,我们可 以兼收并容,把统
30、计技术既看做是对随机事件总体特性判断、又看做决策假设检验的工具方法。在公共卫生中常用的统计技术大致包括:计算各种公共卫生事件的统计指标及表达其分布的图表统计描述 技术、由样本信息估计总体参数的统计判断技术、比较样本统计指标统计学显著性的假说检验、研究中的 统计设计和各种统计模型分析。由于计算机和各种应用统计软件的成功,现在公共卫生工作者很容易完成 复杂的统计计算,关键在于理解各种统计方法的应用假设条件、基本统计思想和原理,以及选择合适的统 计模型。例如,由样本信息估计总体参数的统计判断中,注意到惟独比例可以直接按二项分布进行统计推 断,而速率类和比类指标普通不可以,同时样本应是按随机抽样于同质
31、总体,这就包含了两个基本假设一 随机抽样和同质总体。我们必须清晰,什么是随机抽样,为什么必须随机抽样;什么是同质总体,为什么 必须同质总体。又例如,在应用各种统计模型并进行参数估计时,特别是在应用多变量统计模型时,我们 应该掌握应用此模型的前提假设条件、它们的检验原理和方法、所得参数的意义,才不会发生错误。多种统计技术对公共卫生中流行病与统计学方法的贡献,是工具性贡献,主要在两个方面提供了定量工具 一定量估计随机变异的大小,以及控制混杂作用和定量估计控制混杂后的残存相关性大小。前者用的最多 的是各种统计学显著性的假说检验,后者任务的完成,最多的是分层统计技术或者建造在统计模型上的各 种多元分析
32、技术。统计学假说检验根本的目的只是在于评估随机变异的作用有多大,所以,我们必须正确对 待所谓的统计显著或者非常显著标准(P-值不大于5%或者1%),它们是历史习惯形成的,惟独相对的意义, 不是客观绝对的标准,更不能代替生物学和公共卫生的考虑。此外,经验信息只能“否证的归由厂某假 说,而不能“证实(confirm)”某假说,所以,统计学假说检验只能在一定可信度下去否证无效假 设(null hypothesis),并在这个意义上且只在这个意义上接受备择假设(alternative hypothesis),具体地说就是, 因为无效假设通常是特异性高的假设,所以它才可能被现有给定信息否证,而备择假设却
33、有多种可能, 用现有 给定信息非但无法否证,而且只能由于无效假设被否证了,才使得某些可能的备择假设相对为真 的可能性 增加了,仅此而已。运用分层统计技术去控制混杂作用,往往要引用“加权(weight)”技术整合 多个分层的指标估计值为一个加权平均估计值,加权方法的选择是必须关注的;用多元分析技术来估计 同时校正多个 混杂因素后的残存相关性大小时,统计学提供了选择统计数学模型的指南,而选择什么因 素以及各因素用 什么编码方式进入此模型,却主要应来自流行病学和公共卫生实践的考虑。例如,为了 预测的目的,我们 尚可以依赖逐步统计技术(stepwise statistical procedures),
34、任由计算机来“自动”筛选自 变量,但是,当我们为了控制混杂作用为目的时,却不能单纯依赖逐步统计技术筛选自变量,而必须由 流行病学考虑预设必须 选入模型的自变量,而忽略逐步统计技术对其的选择。复杂群体现象的因果推理和偏倚分析因果概念涉及人类的全部生活,是哲学和各种科学学科有限的儿个中心基本概念之一。它的哲学含义和在 各种科学学科中的定义都不尽相同,而且争议从未终止。这里谨从流行病与统计学方法基本原理的角度, 简述所谓的“流行病学因果推理” (Epidemiological cause-effect inference)“那些能使人们发病概率增力口的 因素,就可被认为是疾病的病因,当其中的一个或者
35、多个不存在时,疾病的频率就下降” (9)。当某个公共 卫生可干预性因素,被认为是疾病的病因被公共卫生干预控制后,若疾病的发生频率下降了,则从流行 病学因果推理上就认为此因素对疾病的因果关系得到了检验“证实工它不同于直接实验性科学(例如, 物理和化学),也有别于基础医学各科(例如,病理和药理,致病微生物学和毒理)中的病因和因果推理。目前科学上有在时空连续性基础上的因果定域(locality)公设,即某事件(结果)只能接受在空间上与其定域相 联的另一事件(原因)的影响,不存在(空间)超距作用、也不存在超光速的(时间)传递。某事件(原因)的改变 必然有(时空)路径(pathway)接触另一事件(结果
36、)而“引起”其变化。这个从原因到结果的(时空)路径,称为 因果路径或者因果机制。当因果路径中没有中间事件时(即此原因直接与结果定域相联),此原因称为直接 原因(第一代父事件),此结果是直接结果(第一代子事件)。流行病学因果推理是要探索引起由个体组成的 群体健康事件的各种原因和可能的因果路径,在此健康事件发生之前直接与个体定域相联的因素都可能 为直接 原因,通过这些直接原于是影响健康事件发生的其他因素都只可能为间接原因。流行病学因果推 理目的在于找到公共卫生可干预性因素及估计若控制了此因素会产生多大的效果,而不在于去严格区分 直接原因还是间接原因。在1974年提出了流行病学意义上的直接因果关系定
37、义一假设某个体A存在一个彻底相同的 B,在时间t1同时对A和B施加干预C和非干预C,在时间t2, A与B反应值之差,定义为,在时段, t2)内干预C相对于非干预C对个体A的因果作用。同理,假设某总体A存在一个彻底相同的总体B,在 时间t1同时对A和B施加干预C和非干预C,在时间t2,总体A与总体B平均反应值之差,定义为,在 时段(t1 , t2)内干预C相对于非干预C对总体A的平均因果作用。因为彻底相同的个体或者总体都不可能 存在,所以B是虚拟的,Rubin的因果模型又称为虚拟事实模型。统计学中通径分析(path analysis),线性结构方程(Linear Structural Equat
38、ion)和图论模型(graphical models), 曾经用于流行病学因果推理,但未获得较大的发展。Hill (1965)提出了九条区分因果性相关(causal association)还是非因果性相关(non-causal association)的标准。其中,时间顺序(temporality)一时间上前 因后果,明显是必须条件的绝对标准,但是,对于流行病学观察性研究来说,许多因素发生的时间先后 有时很难判断。其他的八条,都只是增加因果的可能性而己,不是必须条件,更不能用这八条来否定因果 关系的存在。例如,联系的强度(strength)越大,留有未控制的偏倚或者误差空间也大,所以越可能为
39、因 果性相关,但是,小因果性相关往往因为样本量不足,相关性没有达到统计学显著水平而被忽略(假阴性),惟独提高样本量和 背景的同质,或者,在大规模的meta分析整合相关时才可能检出小强度的因果联系。Greenland等(4)在上 世纪末和本世纪初提出了用多群组分因果图(causal component diagrams)说明流行病学多种充分原因组合的 因果推理和偏倚分析,指出传统的单因单果是特例,并给出了计算在多因多果摸型下某单一原因对总结果 贡献病因分值(etiologic fraction)的方法。流行病学因果推理有两个维度:(1)从样本有效,即内部有效性(internal validity
40、),到总体有效,即外部有效 性(external validty); (2)从一定假阳率(随机)误差估计下的统计学相关,经过偏倚(系统误差)分析到流行病学 因果。这两个维度结合起来,首先是样本必须具有内部有效的相关性存在,统计学显著性假设检验提供了 适宜的误差估计技术,第二步是在具有统计显著相关性前提下,探索样本中为因果性相关的可能,H川的 九条标准,流行病学测量信息性偏倚和样本混杂性偏倚分析提供了指南,从而完成为了内部因果有效性推 理;第三步是在内部有效因果性相关存在时,推广到总体而进行的外部因果有效性评估,判断统计学给出 了由样本相关到总体相关的参数估计区间,流行病学要求从可能存在迭择性偏
41、倚和总体混杂性偏倚角度, 对总 体中因果性相关进行可能性评估。这里再一次强调:用5%或者1%假阳性率的统计显著标准来决策, 小因果性相关往往会被忽略漏掉。把Greenland多群组分因果图和Rubin因果定义结合起来,可知处理(暴露)组与对照(非暴露)组共同包括什 幺(除暴露外的其他)充分原因组分可以决定暴露因果性强度称为流行病学意义上的效应修饰(effect modification)作用,这些共同原因组分又称为暴露的效应修饰因素,是因果本质特性;而处理(暴露)组与对 照(非暴露)之间背景因素的差异,是产生暴露特异因果作用的混杂必要条件(注意,不是充分条件),可能 产生对暴露因果性强度的歪曲
42、(即混杂作用。所以,从相关性向因果性推理过程中必须发现暴露的效应修 饰因素,而必须消除暴露的混杂因素。两者都可以“影响”暴露特异因果性强度,差别在于前者是因果本 质特性的修饰、后者是因果本质特性的混杂。当处理(暴露)组与对照(非暴露)组的背景因素彻底分层后,可认为近似满足了 Rubin的因果模型条件,这 时每层内有效性中无混杂存在,检查层间相关强度有无显著性差异,特别是正负相关不同时,若有无显著 性差异,表示有效应修饰作用存在。惟独确定无层间效应修饰作用,才可以把各层混合求出总平均相关强 度,近似看做推广为总体抽样的外部因果有效性评估的混杂校正后暴露因果性强度指标。注意,当前用来 匡助确定无层
43、间效应修饰作用的技术是“统计交互作用分析”,当层间相关之间无统计学显著差异时,表 示无有效应修饰作用存在才把各层混合求出总平均相关强度,这个方法有两个风险:一个是统计交互作用 与选择模型相关,而流行病学上的效应修饰作用,通常只在相加性模型中才故意义,另一个是这里用了假 阴性率为标准来决策,而当前的统计决策却是控制假阳率下的判断技术。混杂性偏倚是可以通过改善研究设计来控制,也可以用适宜的统计方法来校正,值得注意的是,当混杂性 因子在因果通路(causal pathway)上时,可能产生过度校正(over-adjusted),此外,还应注意与效应修饰的区 别(两者还可能会同时存在)。测量信息性偏倚
44、和迭择性偏倚无法只用统计方法来校正,必须通过提高测量 有效性和改善研究设计来控制。测量误差是不可避免的,随机分布的测量误差降低研究的效力(power)但不 产生偏倚,惟独对照两组之间不均分布才产生测量性偏倚;而用不适当的统计方法或者由於失访/不回答产 生的测量性偏倚,直接扭曲样本中的统计指标估计,影响内部有效性。迭择性偏倚来自研究设计,它影 响外部有效性,观察性和描述性研究是最常用的流行病学研究,它们本身都固有“自我迭择性偏倚”,惟 独用随 机试验来控制。此外,还有所谓的“出版性偏倚”(publication bias)和“迭择性感知 都是信息交流 性偏倚,往往符合潮流或者当事人期望的研究,才
45、会发表或者交流。当我们在文献综述或者系统整合分析 时,必须注意这种偏倚的可能。人类独特强大的“霍桑效应”和“安慰剂”作用Elton Mayo(1949)发表了在美国Illinois州霍桑(Hawthorne)厂的一个研究报告,研究发现人们被关注的本身, 会影响被关注者的行为,从此,这种现象称为霍桑效应(Hawthorne effect)。动物和人类中都存在霍桑效应, 特别以人类强大,来自工业管理研究表明:在个体和群体水平上进行干预所产生的效益中,霍桑效应占10% 到15%(6) o现在知道不管是医学临床、实验室、还是公共卫生社区,都普遍存在霍桑效应。Beecher HK(1955)提请医学界注
46、意安慰剂(placebo)作用:信仰的本身,会影响信仰者的生理生化过程。临 床试验表明安慰剂大约对有关健康和疾病治疗总效果的影响平均有35%(6)O安慰剂作用在人类生活中无处 不在,可能在某些动物中也存在。社会文化可以通过安慰剂作用,而影响健康和疾病的群体表现。虽然普 遍相信在公共卫生问题的原因探索中或者干预的评估中,存在安慰剂作用,但是目前没有研究定量说明安 慰 剂作用的影响有多大。这是两类不同性质的心理暗示:霍桑效应产生于对外界人际关系的感知(他人暗示),而安慰剂作用产生于 内心自我的信念(自我暗示),后者强度大于前者。还有一些心理暗示包括这两种的混合,例如,光晕效应 (halo effe
47、ct) o往往这些心理暗示互相影响,而且还与躯体症状反应交互影响,例如,某患者,经专家讲述 深信不疑轻度腹泻是“排毒,可以改善他的免疫功能,从而会少患感冒;此后他服用了被告知是“排毒” 而实际是缓泻剂的药以后,缓泻剂就可以通过霍桑效应(他人喑示)和安慰剂作用(自我暗示)与缓泻症状反应 交互作用,产生了少患感冒的“疗效”。 心理暗示的作用大小与迭择什么测量指标有关,此外在不同人格 的人中对心理暗示反应差异很大,有的强有的弱,有人很容易被暗示,而有人很难被暗示,同时文化背景 和发生场景氛围对心理暗示的作用影响也很大。心理暗示的作用可能是正面的,也可能是负面的,可表现 为“疗效 也可表现为“副作用工
48、当流行病学因果推理完成为了某暴露与反应之间有因果性相关存在,并估计出总因果性相关大小强度之后, 若有可能应进一步了解心理暗示对总因果性相关有多大的贡献,必要且可能时,还应控制心理暗示对某特 异的因果性相关产生的混杂作用,得到心理暗示校正后的特异因果性相关。流行病学观察性研究,观察的 本身就有霍桑效应,而安慰剂作用无处不在、无时不在。控制文化有关的可测性指标,例如,性别、年龄、 民族、宗教信仰、教育水平、职业、和社会阶层,可以作为心理暗示部份的代理变量(proxy-variables),从 而部份校正心理暗示的偏倚。流行病学和统计学家,英国的Bradford Hill介绍了随机化双盲对照试验方法
49、, 对临床和公共卫生做出了巨大贡献。随机化双盲安慰剂对照试验,是当前惟一有效可行的方法,能较好地 控制并测量心理暗示对流行病学因果性相关的混杂性偏倚。对于诸多无法运用随机化双盲安慰剂对照试验 的公共卫生问题,惟独通过细致的观察、综合的分析,以及参考基础医学各科和心理学的研究成果,对其 中可能的心理暗示作用进行估计。现在随机化双盲安慰剂对照试验已经在临床药物研究中得到了广泛地应用(7)。 首先是选择受试者,即药 物的适应对象,而后随机化分配受试者到处理组或者对照组,处理组全体受试者都接受“标准化”的药物治疗, 而对照组全体受试者都接受安慰剂治疗,受试者与接触受试者的医护人员都不知道谁在处理组还是对照 组,称为“双盲”。很明显盲法,可以控制心理性测量偏倚,提高内有效性,可以单独应用;但是安慰剂对 照同时必须要双盲,才干有效排除安慰剂作用的偏倚,安慰剂对照组的组内效果就是安慰剂作用的样本估 计值。随机化分配可以排除主观分配造成的选择性测量偏倚和混杂偏倚,提高内有效性,还为meta分析 提供了必要的条件。随