第一篇 基本原理篇

第一章 病因模型

【目的】

1.理解四种病因模型的原理及用途。

2.了解四种病因模型各自的优缺点。

3.学会应用四种病因模型分析流行病学研究中暴露与疾病关联的意义。

【基本概念】

1.病因

能使人群发病概率升高的因素就是病因。某病的病因可定义为当其他因素或条件满足且固定不变时,导致该病在某一特定时间里发生的必要因素、特征或事件。

2.必要病因

是一个疾病发生必需的组分病因,是该疾病所有充分病因都需要的组分病因;若该病因不存在,疾病就不会发生,因此,所有患者都具有该病因。如结核分枝杆菌是结核病的必要病因。

3.充分病因

由一个或多个组分构成,是疾病发生所需要的最低条件或需要的组分病因的最少组合。一种疾病的发生可通过多种不同的充分病因实现。充分病因的形成就意味着疾病发生。充分病因中任何一个组分病因缺失,疾病就不会发生。

4.组分病因

是充分病因的组成成分或亚单位。通常所说的病因(如吸烟)都是组分病因。

5.互补病因

同一充分病因里的组分病因互为互补组分病因;同一疾病的所有充分病因互为互补充分病因。特定人群中某一危险因素的致病效应取决于其互补病因在该人群中的分布情况。

6.有向无环图(directed acyclic graph,DAG)

由一条或多条路径组成,路径由变量(或节点)及其相应的连接符号(→)组成,箭头方向代表时序,由一个箭头连接在一起的两个变量为母子关系,母变量对子变量存在直接的因果关系。不同路径之间可共享某些变量。DAG是识别冲撞变量的有效工具。

7.冲撞变量

在DAG中某一特定路径上,如果该路径的一个变量存在着两个或以上的母变量或祖先变量,则该变量为该路径上的冲撞变量。

8.冲撞分层偏倚

对两个变量的共同效应进行不恰当的调整,引起两变量间出现虚假关联而导致的系统误差。

9.后门路径

在DAG中,如果存在混杂变量,那么除了暴露→结局的因果路径外,还存在由混杂因素介导的暴露→结局的另一条开放路径,即后门路径,代表暴露到结局的非因果关联,影响因果推断。

【重点和难点解析】

本章四种病因模型分别为潜在结果模型(potential-outcome models)、因果图模型(graphical causal models)、充分-组分病因模型(sufficient-component cause models)和结构方程模型(structural-equations models)。这四种病因模型的原理和应用总结如表1-1所列。

表1-1 四种常用流行病学病因模型的基本原理和特征

续表

【案例】

案例1-1

根据潜在结果模型,比较同一受试者同时接受和不接受某种处理之后的状态可以确定病因。有研究者采用前后对照研究设计,在新冠疫情暴发学校关闭期间和学校重新开放后分别调查了某地3所初中和3所高中所有在读学生的睡眠情况。结果显示,学校关闭期间中学生的总睡眠时间为8.9小时/天,学校重新开放后为7.8小时/天,缩短了1.1(95%CI:-1.2~-1.0;P<0.001)小时/天;睡眠不足者的比例也从学校关闭期间的21.1%急剧上升至学校开放后的63.9%,差别有统计学意义。根据该研究结果,能否得出新冠疫情导致的居家学习是这些中学生睡眠时间延长和睡眠充足率提高的原因?如是,请解释为什么;如不是,请说明如何才能获得更确切的结论?

案例1-2

图1-1所示是某人群宫颈癌的所有4个充分病因示意图。

图1-1 某人群宫颈癌充分病因示意图

1.该案例中,宫颈癌的必要病因、充分病因和组分病因分别是什么?如何解释这些类型的病因在宫颈癌发生中的作用?

2.假设充分病因I占疾病病因的50%,Ⅱ占20%,Ⅲ和Ⅳ分别占15%。各组分病因的病因分值(人群归因危险度)分别是多少?预防宫颈癌的发生,最佳策略应针对哪个组分病因?

3.案例人群中,居住在东部地区的女性HPV感染率不高,且大多数定期进行宫颈检查和治疗;而居住在西部地区的女性则相反,HPV感染率很高,但仅少数妇女有定期宫颈检查和治疗的机会。这两类人群中,HPV感染、定期宫颈检查和治疗这两个因素的效应强度如何?

4.基于本案例,解释为什么衡量某因素效应强度的相对危险度指标仅能用以表达该因素的公共卫生学意义,而缺乏疾病病因学的生物学内涵?

案例1-3

美国医师Herbst选择l966—1969年在波士顿确诊的8例年轻女性阴道腺癌病例,每例病例配4个非该病患者做对照,对病例、对照以及她们的母亲进行调查。研究结果显示,母亲在妊娠早期服用己烯雌酚使当时尚在子宫中的女儿后期发生阴道腺癌的危险增加。如何使用充分-组分病因模型解释阴道腺癌的这种超长潜伏期?

案例1-4

老王在本年度职工体检中发现自己的空腹血糖为6.8mmol/L。医生告诉他这是糖尿病前期的血糖水平,需要采取预防措施,采用运动、控制膳食等改善生活方式的方法干预,必要时还需服用二甲双胍等进行预防性药物治疗,防止2型糖尿病发生。请用充分-组分病因模型对这种干预的潜在效果进行解释。

案例1-5

流行病学研究中,经常出现某暴露因素与某疾病的关联结果在不同人群中不一致的现象。以肝细胞肝癌为例,我国开展的流行病学调查发现,乙肝病毒(HBV)感染及黄曲霉毒素暴露是肝癌的主要危险因素;在日本人群中未发现HBV感染率与肝癌有关,而是认为丙肝病毒(HCV)感染可能是肝癌的主要危险因素;在美国人群中,肝细胞肝癌病例多由非酒精性脂肪肝导致的肝硬化引起;而血色病引起肝硬化和肝癌的报道多见于澳大利亚。试用充分-组分病因模型解释这种不同人群研究结果的差异及其对疾病防控的意义?

案例1-6

大量流行病学研究显示,与非吸烟者相比,吸烟者患肺癌的相对危险度RR或比值比OR在西方成年男性人群中高达10.0及以上,而在中国成年男性人群中通常低于5.0。试用充分-组分病因模型对此进行解释。

案例1-7

采用充分-组分病因模型探讨疾病病因的前提条件是什么?请分别以2型糖尿病和新冠肺炎为例,分别说明充分-组分病因模型在评估暴露与疾病关联中存在的局限性及解决方案。

案例1-8

图1-2为肝癌病因DAG图。分析饮酒与肝癌发病风险的关联时,可能存在的中介变量和混杂因素分别是哪些?在数据分析时分别应如何处理?

图1-2 肝癌病因DAG图

案例1-9

图1-3为艾滋病病因DAG图,当分析吸毒与艾滋病风险的关联时,可能存在的所有中介变量和混杂因素分别是什么?

图1-3 艾滋病病因DAG图

【思考题】

请使用充分-组分病因模型对Koch病因推断三原则及Hill’s因果推断原则进行剖析。

附 案例解析与思考题答案

案例解析

案例1-1分析

根据潜在结果模型,比较同一受试者同时接受和不接受某种处理之后的状态可以确定病因。由于同一受试者不能同时既接受又不接受某种处理,因此,将个体因果关系测量向群体转变,采用设置对照组的方法,对比处理组和对照组的结果,确定病因。案例中,虽然是对研究对象在学校关闭和开放两种不同状态下进行了调查,但所采用的是前后对比,而未设置同期对照。两次调查的差别可能是由其他原因如考试引起。假定有重要的线上考试,即使是在学校关闭期间,学生也会有较短的睡眠时间和较高比例的睡眠不足者。

如欲获得更确切的结果,须设置同期无学校关闭对照组或同期无学校重新开放对照组,采用随机分配、匹配、倾向性评分等控制混杂因素的方法使两组的基本特征相同。比较两组两个时段睡眠时间和睡眠不足率变化的差异,评估学校关闭居家学习对中学生睡眠的影响。

案例1-2分析

1.HPV感染是该案例人群宫颈癌所有4个充分病因中共同且不可或缺的组分病因,即必要病因。没有HPV感染,宫颈癌就不可能在该人群中发生。

案例人群宫颈癌的充分病因是如图1-1所示的4个充分病因,人群中发生的所有病例均由这4个充分病因导致。4个充分病因中所列所有因素均为组分病因,这些组分病因在同一充分病因中互为互补病因。

2.假设充分病因I占疾病病因的50%,Ⅱ占20%,Ⅲ和Ⅳ分别占15%,那么各组分病因的病因分值计算如附表1-1所示。可见,HPV感染的病因分值最高,达100%。预防宫颈癌的发生,最佳策略应针对HPV感染,采取接种HPV疫苗或减少感染机会的方法预防宫颈癌;此外,卫生习惯差的病因分值也较高,对目标人群进行卫生宣教,改善卫生习惯也是降低该人群宫颈癌发生的有效措施。

附表1-1 案例人群中宫颈癌组分病因的病因分值计算

续表

3.本案例人群的充分病因(Ⅱ)和(Ⅳ)中“HPV感染率”和“定期进行宫颈检查和治疗”均为组分病因,两者互为互补病因,在充分病因(Ⅱ)和(Ⅳ)中存在交互作用。根据充分-组分病因模型,疾病危险因素的强度取决于同一充分病因中该因素互补病因的发生率。东部地区女性HPV感染率不高,且定期进行宫颈检查和治疗,此时,“HPV感染”的效应强度取决于该人群“宫颈检查和治疗”的比例,比例高,则效应强;“宫颈检查和治疗”的效应取决于该人群HPV感染率,感染率不高,因此效应强度弱。相反,西部地区妇女HPV感染率很高,但定期宫颈检查和治疗比例较低,此人群中“HPV感染”的效应强度低而“宫颈检查和治疗”的效应强度高。

4.根据充分-组分病因模型,充分病因中组分病因的效应强度取决于互补病因在人群中的分布,而非该因素导致的生物学效应大小。上一题中“HPV感染”是案例人群宫颈癌发生的必要病因,HPV感染后如何促进宫颈上皮细胞瘤变的生物学机制也已非常明确。然而在西部地区妇女中,“HPV感染”的效应因互补病因“定期宫颈检查和治疗”比例低而强度弱。可见,衡量某因素效应强度的相对危险度RR或比值比OR仅用以表达该因素的公共卫生学意义,而缺乏疾病病因学的生物学内涵。

案例1-3分析

当一个充分病因的某个组分病因开始起作用时,其他组分病因并不是现成的,而是随着时间的推移而相继具备,直到充分病因起作用,这个累积的时间间隔即潜伏期。母亲在怀孕早期使用己烯雌酚,通过子宫胎盘屏障进入胎儿体内。己烯雌酚与甾体雌激素不同,不能在胎儿体内被代谢,因而会影响女性胎儿阴道的发育,使胎儿阴道输卵管内膜型上皮面积增大,增加了与不明原因辅致癌物质作用的机会。这些女婴生长发育至青春期后,体内雌激素水平升高,作为启动因子促使癌的发生。一旦完成充分病因的积累,疾病即显露出来。大多数阴道腺癌病例需要10~20年的时间进行充分病因的积累,因而有如此超长的潜伏期。

案例1-4分析

根据充分-组分病因模型,充分病因的形成意味着疾病的发生,而充分病因中任何一个组分病因缺失,疾病就不会发生。老王的空腹血糖水平6.8mmol/L已达到临床前期水平,充分病因即将形成。此时采用生活方式干预或预防性药物干预,去除充分病因中的1个或多个组分病因,可延迟或阻断充分病因的形成,延缓或预防疾病的发生。

案例1-5分析

根据充分-组分病因模型,组分病因是充分病因的组成成分或亚单位。中国人群中相当比例肝细胞肝癌的发生与HBV感染及黄曲霉毒素暴露有关,即HBV感染和黄曲霉毒素暴露分别是该人群肝细胞肝癌充分病因的一个组分病因。然而日本人群中HCV感染可能是肝癌的主要危险因素,美国人群中肝细胞肝癌病例多由非酒精性脂肪肝导致的肝硬化引起,澳大利亚人群中肝癌与血色病引起的肝硬化有关。在这些人群中,HBV感染及黄曲霉毒素暴露并非肝细胞肝癌任何一个充分病因的组分病因。可见,不同人群同一疾病的组分病因并不相同,在不同人群中对同一因素开展流行病学调查会得到不同的研究结果。

充分-组分病因模型提示,去除充分病因中任何一个组分病因即可预防该充分病因导致的疾病。HBV感染和黄曲霉毒素暴露是中国人群的重要组分病因,而HCV感染、非酒精性脂肪肝和血色病分别是日本、美国和澳大利亚人群的重要组分病因,在四个人群中分别针对各自的组分病因采取措施,均可达到阻断充分病因形成,预防肝细胞肝癌发生的目的。

案例1-6分析

依据充分-组分病因模型,特定人群中某一危险因素的致病效应取决于其互补病因在该人群中的分布情况。如果某一危险因素需要与其他发生率低的组分病因组成充分病因,则这一危险因素的致病效应强度较弱,反之则较强。吸烟这一危险因素在西方成年男性人群中致病效应强度较强,提示其互补病因如“遗传易感性”在人群中有较高的比例,而在中国成年男性人群中比例较低。

案例1-7分析

充分-组分病因模型将人群中疾病发生的频率和现象单纯地理解为人群中各个体发病情况的简单累加和合计,而忽视群体内个体之间的相互关联和关联方式,人群中暴露因素的致病效应是其对个体致病效应的线性叠加。因此,采用充分-组分病因模型探讨疾病病因的前提条件是人群中个体发病现象相互独立,不存在相互影响。

2型糖尿病是一种慢性非传染性疾病,由遗传和环境因素共同导致。个体发病相互独立,不存在相互传播和影响,适合采用充分-组分病因模型探讨该病病因。而新冠肺炎是一种急性传染性疾病,疾病的发生不仅受病因在个体水平的致病效应影响,还受人群中各个体之间的相互关联及动态变化在群体水平的影响。因此,新冠肺炎不适合采用充分-组分病因模型探讨病因,而需采用更复杂的人群系统流行病学病因模型,全面揭示个体和群体水平的病因及其效应。

案例1-8分析

DAG图可以直观地识别研究中存在的混杂因素,其判断标准为:①暴露因素与研究结局之间存在开放的后门路径;或②暴露因素与研究结局存在共同的母变量或祖先变量。满足以上任何一条即可判断存在混杂因素。

根据图1-2所示肝癌病因DAG图,暴露因素饮酒(E)与研究结局肝癌(O)之间有3条开放路径,即一条直接因果路径:E→O,一条间接因果路径:E→脂肪肝→肝硬化→O,和一条混杂路径:E←人口学特征→O。

混杂路径中,暴露因素E(饮酒)与结局变量O(肝癌)存在共同的母变量(人口学特征),或者说饮酒与肝癌之间存在开放的后门路径E←人口学特征→O。因此,该研究中人口学特征是混杂因素,需在数据分析中进行调整,获得正确的E→O总效应。

间接因果路径中,暴露因素E(饮酒)与结局变量O(肝癌)因果关联还可由脂肪肝→肝硬化介导,饮酒通过引起脂肪肝,进一步发展成肝硬化而发生肝癌,存在间接效应或中介效应。在数据分析中不能将这些变量作为混杂因素进行调整,而需采用中介分析方法定量评估饮酒与肝癌发病风险的直接和间接关联。

案例1-9分析

根据图1-3所示艾滋病病因DAG图,暴露因素吸毒(E)与研究结局艾滋病(O)之间有3条开放路径,即2条间接因果路径:E→共用注射器→HIV感染→O和E→整体健康状况→整体免疫状况→HIV感染→O,和1条混杂路径:E←人口学特征→O。

间接因果路径中,暴露因素E(吸毒)与结局变量O(艾滋病)没有直接因果路径,而是通过共用注射器→HIV感染而发生艾滋病,或导致整体健康状况差→整体免疫状况差→HIV感染而发生艾滋病,存在间接效应或中介效应。在数据分析中不能将这些变量作为混杂因素进行调整,而需采用中介分析方法定量评估这些中介变量的中介效应。

混杂路径中,暴露因素E(吸毒)与结局变量O(艾滋病)存在共同的母变量(人口学特征),或者说吸毒与艾滋病之间存在开放的后门路径E←人口学特征→O。因此,该研究中人口学特征是混杂因素,需在数据分析中进行调整,获得正确的E→O总效应。

思考题答案

1.对Koch病因推断三原则的剖析

Koch病因推断原则1:病因因素必须存在于每一个病例,即病因因素是必要病因。原则2:该因素不可能以非致病的方式存在于其他疾病的病例中。原则3:该病因因素必须能从体内分离并培养,且能在易感者中引发新的病例,即病因因素是充分病因。

根据充分-组分病因模型,人群中发生的病例由不同的充分病因引起;同一充分病因中包括多个组分病因。因此,所有疾病均是多病因的,大多数病因既不是必要病因也不是充分病因。暴露于某个或某些组分病因,只要不具备充分病因的所有组分病因,疾病就不会发生。

2.对Hill’s因果推断原则的剖析

Hill’s因果推断原则包括关联的强度(strength)、关联的可重复性(consistency)、关联的特异性(specificity)、关联的时序性(temporality)、剂量-反应关系(dose-response relationship)、关联的生物学合理性(biologic plausibility)、关联的一致性(coherence)和实验证据(experiment evidence)。

(1)关联强度:

根据充分-组分病因模型,关联强度依赖于同一充分病因中互补病因分布,并不一定强的关联比弱的关联更可能是病因,也并不是每一个组分病因与疾病都有强关联。可见关联强度并非判断病因的可靠准则。

(2)关联的可重复性:

根据充分-组分病因模型,不同人群可能存在不同的充分病因及其组分病因,研究结果缺乏重复性不能成为排除因果联系的依据。

(3)关联的特异性:

根据充分-组分病因模型,所有疾病均是多病因的,同一病因可能是多种疾病的组分病因。当暴露与结局的关联缺乏特异性时,不能排除因果联系的可能性。

(4)生物学的合理性和关联的一致性:

根据充分-组分病因模型,充分病因的各组分病因间存在生物学交互作用。由于当前掌握的生物学理论或知识有限,目前缺乏生物学合理性或与现有知识和理论不一致的关联可能在将来被证实。因此,这两个原则均不能作为排除因果关联的依据。

(5)实验证据:

并不是所有的因果联系都可以被实验所证实,没有实验证据的关联不一定不是因果联系。

(6)剂量-反应关系:

有些生物学效应并不存在剂量-反应关系。

(7)关联的时序性:

一个充分病因完全具备时疾病才能发生,可以作为判断因果关系的标准,但有时前因后果的时序性判断比较困难。

(徐望红)