Chinese Journal of Lung Cancer
中国肺癌杂志编辑部
image
肺癌家系肿瘤风险度病例对照研究与预测模型
DOI 10.3779/j.issn.1009-3419.2011.07.04, Volume: 14, Issue: 7,

Table of Contents

Highlights

Notes

Abstract

背景与目的对人群每年进行低剂量胸部CT筛查可提高早期肺癌诊断率,但其假阳性率较高,常导致不必要的手术。本研究拟建立肺癌家系风险度预测模型,从中细分高危人群,从而提高筛选效能。方法以经病理确诊的肺癌患者的家系作为研究人群,同时收集先证者的配偶家系作为对照家系,共收集先证者家系633例和对照家系565例。应用SPSS 17.0进行统计学分析。结果先证者家系一级亲属患肿瘤的风险性为对照组家系一级亲属的1.71倍(OR=1.71, P < 0.001)。家系中患癌个数分别为=1和≥2的两组与对照组比较有统计学差异(P=0.005, P=0.002)。建立回归模型后赋值得到与普通人群相比的肺癌风险度为0.38-63.08(倍)。风险度为普通人群10倍以上的群体,应用本模型的正确率为88.1%。结论如果一级亲属患癌个数越多,患肺癌的风险越高。根据本研究建立的风险度预测模型,风险度达普通人群10倍以上的主要为重度吸烟的吸烟人群,应加强筛查。特点为:有肺部既往疾病史的重度吸烟人群,加上男性、职业暴露和一级亲属肿瘤家族史三项中的任一项;有肺部既往疾病史或重度吸烟的人群中,有职业暴露的男性且一级亲属有不少于两位肿瘤患者。

Keywords
肺癌家系肿瘤风险度病例对照研究与预测模型

大多数人类肿瘤和环境因素相关,但同样暴露于特定致癌物,却仅部分人群发病。另外,某些肿瘤也有明显的家族聚集现象。可见,除环境因素外,遗传背景尤其是基因的多态性差异也是重要的决定因素。来自冰岛等地的研究揭示,家族聚集可表现为不同类型肿瘤的聚集,提示存在共同的遗传因素。例如,雌激素相关基因可能和经产妇患乳腺癌与肺癌风险性增加存在交叉联系[1-4]。瑞典的研究[5]揭示,吸烟可能导致胰腺癌与肺癌的家族聚集,而胰腺癌与乳腺癌的家族聚集可能与BRCA2的遗传变异有关。本文通过对单位时间内的肺癌患者连续性收集调查资料,进行大样本量遗传流行病学调查,对肺癌患者的肿瘤家族聚集性进行研究,并建立肺癌风险度预测模型,期望有助于高危人群的筛选和早期发现。

1. 材料与方法

1.1. 病例选择

连续性收集2009年10月-2010年12月于广东省肺癌研究所病理学确诊的肺癌患者,并以其作为先证者,其所在家系确定为先证者家系,其一级亲属(被调查者的父母、子女及同胞)为家系成员。因肺癌先证者的子女发病率极低,与大部分年龄未到发病高峰期有关,且绝大部分子女为先证者和配偶对照组的共同子女,因此统计时将子女从一级亲属范围剔除。

1.2. 对照选择

对照组为肺癌先证者的配偶家系,纳入研究的配偶无肿瘤史,与肺癌家系成员之间不存在任何血缘关系。由同一调查员采用相应调查表记录对照家系成员的一般情况及家系资料,另一调查员进行复核。

1.3. 材料收集

由调查员对初治的肺癌患者进行面访,在先证者本人或其亲属签定知情同意书后,应用统一的调查表,对肺癌先证者及其配偶进行调查。调查表内容包括性别、年龄分组、吸烟指数、肺部既往疾病史、居住环境、职业接触、一级亲属肿瘤家族史和亲属的情况等。由最了解情况者作为问讯对象,提高可靠性。为了减少回忆偏倚,我们尽可能增加了样本量,同时又让调查对象对一些不确定情况通过电话咨询的方式进行证实。

1.4. 统计分析

用EpiData 3.1软件建立数据库,应用SPSS 17.0对先证者及其家系资料和对照资料进行统计学分析。分类资料的比较采用卡方检验,如不满足卡方检验条件者采用Fisher Exact检验;计量资料的比较采用两独立样本t检验。所有统计均采用双侧检验,检验水准为0.05。Crude OR通过卡方检验计算得出,Adjusted OR通过Logistic回归分析得到。Logistic逐步回归模型对因素的筛选条件为进入标准P < 0.05,剔除标准为P > 0.10。

2. 结果

2.1. 均衡性检验

先证者及对照组的籍贯属于中国东部沿海的25个省或直辖市,广东省内患者来自广东省21个地级市。两者家系在年龄、地区、居住环境和一级亲属人数的比较,无统计学差异(表 1)。先证者的肺癌分期采用UICC的TNM2009分期,其中Ⅰ期患者96例,Ⅱ期患者63例,Ⅲ期患者157例,Ⅳ期患者317例。

1
临床流行病学资料比较Comparison of epidemiology data
CharacteristicCase (n =633) [n (%)]Control (n =565) [n (%)]P
a: Missing values were not included in percentage calculations.
Age cohort0.070
   50 years125 (19.7)136 (24.1)
   ≥50 years508 (80.3)429 (75.9)
Provincea0.550
   Guangdong Province461 (72.8)402 (71.3)
Non-Guangdong Province172 (27.2)162 (28.7)
   Daily contact0.374
   No527 (83.3)481 (85.1)
   Yes106 (16.7)84 (14.9)

2.2. 先证者与配偶年龄分布

图 1可见,先证者由52岁开始迅速上升,56岁左右达高峰,至80岁后迅速下降,大致呈单峰分布。而配偶的年龄分布大致与之匹配。

病例组和对照组年龄分布图
1
病例组和对照组年龄分布图The distribution of age in case arm and control arm

2.3. 一级亲属患癌风险

表 2表 3可见,肺癌患者一级亲属的患癌风险性明显高于对照组。家系患癌个数分别为0、1和≥2三组,有统计学差异,发病年龄分层分析显示晚发肺癌差异较早发肺癌明显,但早发肺癌样本量相对较少。

2
先证者一级亲属患癌风险Risk of cancer in first-degree relatives of proband
FactorCase/ControlCrude OR (95%CI)Adjusted ORa (95%CI)
a: ORs calculated by conditional logistic regression adjusted for sex, lung disease history, smoking status, living environment and occupation expose.
Proband’s family history
   No432/4381.001.00
   Yes201/1271.60 (1.24-2.08)1.71 (1.28-2.28)
N of families with
   0432/4381.001.00
   1149/1111.36 (1.03-1.80)1.55 (1.14-2.12)
   2+cancers52/163.30 (1.85-5.86)2.65 (1.42-4.94)
3
先证者的一级亲属患癌风险性(以年龄分层)Risk of cancer in first-degree relatives of Proband stratified by age
Age cohortFactorsCase/ControlCrude OR (95%CI)Adjusted ORa (95%CI)
a: ORs calculated by conditional logistic regression adjusted for sex, lung disease history, smoking status, living environment and occupation expose.
< 50 yearsProband’s family historyNo86/1121.001.00
Yes39/242.12 (1.18-3.78)2.01 (1.08-3.74)
N of families with086/1121.001.00
132/231.81 (0.99-3.32)1.71 (0.90-3.28)
2+cancers7/19.12 (1.10-75.50)8.85 (1.01-77.80)
≥50 yearsProband’s family historyNo346/3261.001.00
Yes162/1031.48 (1.11-1.98)1.64 (1.18-2.27)
N of families with0346/3261.001.00
1117/881.25 (0.91-1.72)1.52 (1.07-2.17)
2+cancers45/152.83 (1.55-5.17)2.21 (1.14-4.28)

2.4. 肺癌风险度的判别预测模型

为控制混杂因素,提高预测准确率,建立以性别(女、男)[6]、吸烟指数(0、 < 400和≥400)[7]、肺部既往疾病史(无、有)[8]、生活接触史(无、有)[9]、职业接触史(无、有)[10]等公认的危险因素和本研究证实的一级亲属患癌个数(0、1、≥2),年龄分组(< 50岁、≥50岁)[11]等肺癌风险度影响因素为自变量(各变量的取值以第一种情况为0,余各情况依次递增),是否为先证者为因变量建立二分类Logistic前进法逐步回归模型。最终保留在模型中的自变量为性别、吸烟指数、肺部既往疾病史、职业接触史和一级亲属患癌个数(表 4)。

4
预测模型的二分类Logistic回归分析模型A binary Logistic regression analysis of forecasting model
VariableBSEWaldPOR (95%CI)
Sex0.4640.1786.780.0091.59 (1.12-2.26)
Smoking status62.69< 0.001
   Light smoker0.1350.2410.310.5761.14 (0.71-1.84)
   Heavy smoker1.5450.21153.74< 0.0014.69 (3.10-7.09)
Lung disease history1.6890.32227.49< 0.0015.41 (2.88-10.18)
Occupation expose0.4700.1727.440.0061.60 (1.14-2.24)
N of families with15.020.001
   10.4360.1587.630.0061.55 (1.14-2.11)
   2+cancers0.9570.3189.060.0032.60 (1.40-4.86)
Constant a′-0.8670.10272.03< 0.0010.420

根据表 4得到回归函数logit(P)=-0.867+0.464*性别+0.135*吸烟指数1+1.545*吸烟指数2+1.689*肺部既往疾病史+0.470*职业接触+0.436*一级亲属患癌个数1+0.957*一级亲属患癌个数2。

① 模型用于预测:由于病例对照研究的非条件Logistic回归得不到常数项a′的估计值,不能直接用于预测,需要对常数项进行校正,即:

其中n1和n0分别为病例和对照的样本含量,q1和q0为特定人群中发病和不发病的先验概率。以《中国肿瘤登记地区2006年肿瘤发病和死亡资料分析》中肺癌发病率49.7/10万用于常数项的校正[12],然后再用调整后的α作为Logistic回归方程的常数项计算预测的肺癌发病概率(表 5)。

5
研究对象的肺癌发病概率预测及相对风险度Prediction of lung cancer morbidity and relative risk in the study objects
RowSexLung disease
history
Occupation
expose
Light
smokers
Heavy
smokers
Infected
individual
(=1)
Infected
individual
(≥2)
ConstantProbabilityRRa
0.4641.6890.470.1351.5450.4360.957-0.867
a: prediction of study object with lung cancer morbidity compared to Chinese population.
100000000.000, 1860.38
200010000.000, 2130.43
300000100.000, 2880.58
410000000.000, 2960.60
500100000.000, 2980.60
600010100.000, 3300.66
710010000.000, 3390.68
800110000.000, 3410.69
910100000.000, 4740.95
1000000010.000, 4850.98
1100110100.000, 5281.06
1210010100.000, 5251.06
1310110000.000, 5431.09
1400010010.000, 5561.12
1510110100.000, 8401.69
1600001000.000, 8741.76
1710010010.000, 8841.78
1800110010.000, 8891.79
1901000000.001, 0092.03
2001010000.001, 1552.32
2100001100.001, 3512.72
2210001000.001, 3902.80
2300101000.001, 3982.81
2410110010.001, 4142.84
2511000000.001, 6053.23
2601100000.001, 6153.25
2701010100.001, 7863.59
2811010000.001, 8373.70
2901110000.001, 8483.72
3010001100.002, 1494.32
3100101100.002, 1624.35
3210101000.002, 2244.47
3300001010.002, 2754.58
3411100000.002, 5685.17
3511010100.002, 8415.72
3601110100.002, 8585.75
3711110000.002, 9395.91
3801010010.003, 0086.05
3910101100.003, 4396.92
4010001010.003, 6197.28
4100101010.003, 6417.33
4211110100.004, 5469.15
4301001000.004, 7319.52
4411010010.004, 7849.62
4501110010.004, 8129.68
4610101010.005, 79011.65
4701001100.007, 31714.72
4811001000.007, 52515.14
4901101000.007, 57015.23
5011110010.007, 65415.40
5111001100.011, 63723.41
5201101100.011, 70723.56
5311101000.012, 03924.22
5401001010.012, 32024.79
5511101100.018, 61937.46
5611001010.019, 59339.42
5701101010.019, 71139.66
5811101010.031, 34963.08

表 5可见,模型将本研究的病例组和对照组分为58个亚组,并列出与普通人群肺癌发病率比较得到的相对风险度。根据第四版流行病学教科书关于暴露与疾病联系强度的描述,RR在1.0-1.1为无联系,RR在1.2-1.4代表联系强度为弱,RR为1.5-2.9代表联系强度为中等,RR为3.0-9.0代表联系强度为强,RR≥10代表联系强度为很强。表 5中风险度为普通人群10倍以上的群体共13个亚组,该人群主要为重度吸烟的吸烟人群,在性别、肺部既往疾病史、职业接触史和一级亲属肿瘤家族史中具备至少两个以上阳性。

② 模型用于判别以验证正确率(表 6):根据估计概率进行判别归类,第一类为非肺癌(对照),第二类为肺癌(病例)。如果估计概率 < 0.5,则将其判定为第一类;如果估计概率 > 0.5,则将其判定为第二类;如果=0.5,暂不归类。最后将结果与实际情况对照,得到模型的正确率。

6
预测模型效果检验Classification tablea of forecasting model
Observed groupPredicted groupPercentage correct
(%)
ControlCase
a: The cut value is 0.500.
Control44012577.9
Case23240163.3
Total67252670.2

③ 风险度为普通人群10倍以上的群体预测正确率(表 7表 8)由表 7表 8可见,在该群体应用本预测模型的正确率达到了88.1%,有良好的应用价值。

7
风险度为普通人群十倍以上的群体预测情况Prediction of people whose degree of risk are more than ten times to the Chinese population
ProbabilityRRnCase/control (Forecast)Case/control (Fact)
460.005, 79011.652020/017/3
470.007, 31714.72000
480.007, 52515.14000
490.007, 57015.2322/02/0
500.007, 65415.40000
510.011, 63723.41000
520.011, 70723.56000
530.012, 03924.222626/022/4
540.012, 32024.79000
550.018, 61937.4688/08/0
560.019, 59339.42000
570.019, 71139.66000
580.031, 34963.0833/03/0
8
预测模型中风险度为普通人群十倍以上的群体效果检测Classification tablea of people whose degree of risk are more than ten times to the Chinese population in the forecasting model
Observed groupPredicted groupPercentage correct
(%)
ControlCase
a: The cut value is 0.500.
Control070
Case052100
Total05988.1

3. 讨论

吸烟是目前肺癌最重要的危险因素。其它的危险因素包括二手烟、生活接触、职业暴露、HPV等病毒感染、空气污染和结核等。基因易感性在年轻肺癌中起到尤其重要的意义。

肿瘤二次打击学说主要适用于有遗传倾向的肿瘤,如视网膜母细胞瘤等,对应的临床特点为:早年发病、病灶双侧或多发和家族聚集倾向,其中家族史是最明显的临床特征。Xu等[13]收集了1, 561例肺癌先证者的12, 817例一级亲属的资料进行分析,提示孟德尔衰减模型和共显性模型均能容纳肺癌的病因解释,而当把发病年龄分布纳入模型时,则发现多基因和环境因子的交互作用模型更符合总体人群的肺癌发病分布。

本研究为单位时间内连续收集病例的大样本量病例对照研究,地域分布均衡,具有人群普遍性。Ziogas等[14]研究表明,以人口登记为基础的研究其家族史假阳性率较高,以临床患者为基础的研究比较可靠。本研究的调查对象为临床患者,风险比为控制性别、年龄分组、肺部既往疾病史、吸烟指数、居住环境、职业接触得到的调整OR,因此,与以人群为基础的研究比较可信度较高。

美国肺癌遗传流行病学联盟2004年首次定位了和肺癌家系关联的区域——染色体6q23-25,并发现随着家系中癌症成员的增加,易感基因与6号染色体上的遗传标记的连锁相关性也增强[15]。本文发现在调整性别、年龄分组、肺部既往疾病史、吸烟指数、生活接触和职业接触后,肺癌患者一级亲属的患癌风险性明显高于对照组,且家系患癌个数为1和≥2的两个亚组均有统计学差异(OR=1.55, P=0.005; OR=2.65, P=0.002),结论与前述类似。这提示随着家系中肿瘤患者的增加,体现的肿瘤遗传易感性强度有增加的趋势,这也是将家系中一级亲属患癌个数列为肿瘤风险度因素之一的依据。另外,发病年龄分层分析显示晚发肺癌差异较早发肺癌明显,除早发肺癌例数相对较少的因素外,也可能与肺癌由低肿瘤易感性的遗传多态性决定有关。

日本有一项大规模的前瞻性队列研究JPHC研究[16]表明所有癌症家族史与肺癌发病风险增加无关。作为前瞻性研究,其与本研究肺癌先证者一级亲属患癌风险性有高度统计学意义的结论相反。从肺癌与其它肿瘤的家族聚集现象证明有共同遗传因素影响的众多研究,以及肺癌发病的理论推断,肺癌先证者的肿瘤家族史对肺癌风险性的提高应有影响,但影响低于肺癌家族史。分析该研究的随访,发现该队列研究入组132, 972受试者,年龄40岁-69岁,随访102, 255例,随访13年发现791例新发肺癌。在基线记录资料后,追踪新发肺癌患者资料而未更新肿瘤家族史资料。而本研究以临床患者为目标人群,即时记录对应的肿瘤家族史,目的性和时效性强。因此,JPHC研究的样本量基数大,肿瘤家族史资料未更新,可能导致关联关系被掩盖。

早期肺癌筛查国际行动计划(International Early Lung Cancer Action Program, I-ELCAP)此前的研究数据[17]表明,每年进行低剂量CT筛查可检查出Ⅰ期肺癌,Ⅰ期肺癌患者若立即进行手术切除肿瘤,其10年生存率可达92%,而所有未治疗的Ⅰ期患者将在5年内死亡。该研究表明低剂量CT筛查可增加早期肺癌的诊断率,从而使患者获得较好的生存结果。但该筛查的假阳性率一直被诟病。美国国立卫生研究院(National Institutes of Health, NIH)一项大样本、长期随机临床研究[18]表明,对高危人群(吸烟或曾经吸烟达每年30包以上,年龄55岁-74岁)进行低剂量CT扫描筛查肺癌的假阳性率较高,常常因“错误预警”导致不必要的检查、活检和手术。因此,建立肺癌风险度模型,综合评估肺癌发病的各个危险因素,找到真正的肺癌高危人群,是性价比最高的途径。

本文针对吸烟指数、性别、年龄分组、一级亲属患癌个数、肺部既往疾病史、生活接触史和职业接触史,建立回归模型,赋值后得到各亚组肺癌发病概率与人群相比的风险度在0.38-63.08的结论,准确率为70.2%。这可能是因为在低风险的群体,暴露因素和疾病联系的强度不大从而影响了预测效率。而在联系强度为很强、风险度为普通人群10倍以上的群体,应用本模型的预测准确率为88.1%。特点为:有肺部既往疾病史的重度吸烟人群,加上男性、职业暴露和一级亲属肿瘤家族史三项中的任一项;有肺部既往疾病史或重度吸烟的人群中,有职业暴露的男性且一级亲属有不少于两位肿瘤患者。因此,建议风险度为人群10倍以上的高危人群可每年进行低剂量CT筛查,可望提高筛查效能。但因病例组和对照组为配偶关系,生活环境基本相同,所以生活接触史未保留在模型中,应用时应结合本因素综合考虑。

References

1 

    Amundadottir LT, Thorvaldsson S, Gudbjartsson DF, . Cancer as a complex phenotype: patern of cancer distribution within and beyond the nuclear family. PLoS Med 2004. 1: 3, pp.e65, doi: 10.1371/journal.pmed.0010065

2 

    Mayne ST, Buenconsejo J, Janerich DT. Familial cancer history and lung cancer risk in United States nonsmoking men and women. Cancer Epidemiol Biomarkers Prev 1999. 8: 12, pp.1065-1069https://www.ncbi.nlm.nih.gov/pubmed/10613338

3 

    Hershberger PA, Vasquez AC, Kanterewicz B, . Regulation of endogenous gene expression in human non-small cell lung cancer cells by estrogen receptor ligands. Cancer Res 2005. 65: 4, pp.1598-1605, doi: 10.1158/0008-5472.CAN-04-2694

4 

    Stabile LP, Davis AL, Gubish CT, . Human non-small cell lung tumors and cells derived from normal lung express both estrogen receptor alpha and beta and show biological responses to estrogen. Cancer Res 2002. 62: 7, pp.2141-2150https://www.ncbi.nlm.nih.gov/pubmed/11929836

5 

    Hiripi E, Lorenzo BJ, Li X, . Genetic epidemiology of cancer: from families to heritable genes. Br J Cancer 2009. 101: 10, pp.1792-1797, doi: 10.1038/sj.bjc.6605363

6 

    Tyczynski JE, Bray F, Aareleid T, . Lung cancer mortality patterns in selected Central, Eastern and Southern European countries. Int J Cancer 2004. 109: 4, pp.598-610, doi: 10.1002/(ISSN)1097-0215

7 

    Sellers TA, Bailey-Wilson JE, Elston RC, . Evidence for mendelian inheritance in the pathogenesis of lung cancer. J Natl Cancer Inst 1990. 82: 15, pp.1272-1279, doi: 10.1093/jnci/82.15.1272

8 

    Turner MC, Chen Y, Krewski D, . Chronic obstructive pulmonary disease is associated with lung cancer mortality in a prospective study of never smokers. Am J Respir Crit Care Med 2007. 176: 3, pp.285-290, doi: 10.1164/rccm.200612-1792OC

9 

10 

11 

    Bromen K, Pohlabeln H, Jahn I, . Aggregation of lung cancer in families: results from a population-based case-control study in Germany. Am J Epidemiol 2000. 152: 6, pp.497-505, doi: 10.1093/aje/152.6.497

12 

13 

    Xu H, Spitz MR, Amos CI, . Complex segregation analysis reveals a multigene model for lung cancer. Hum Genet 2005. 116: 1-2, pp.121-127, doi: 10.1007/s00439-004-1212-9

14 

    Ziogas A, Anton-Culver H. Validation of family history data in cancer family registries. Am J Prev Med 2003. 24: 2, pp.190-198, doi: 10.1016/S0749-3797(02)00593-7

15 

    Bailey-Wilson JE, Amos CI, Pinney SM, . A major lung cancer susceptibility locus maps to chromosome 6q23-25. Am J Hum Genet 2004. 75: 3, pp.460-474, doi: 10.1086/423857

16 

    Nitadori J, Inoue M, Iwasaki M, . Association between lung cancer incidence and family history of lung cancer: data from a large-scale population-based cohort study, the JPHC study. Chest 2006. 130: 4, pp.968-975, doi: 10.1378/chest.130.4.968

17 

    I-ELCAP , Henschke CI, Yankelevitz DF, . Survival of patients with stage Ⅰ lung cancer detected on CT screening. N Engl J Med 2006. 355: 17, pp.1763-1771, doi: 10.1056/NEJMoa060476

18 

    Croswell JM, Baker SG, Marcus PM, . Cumulative incidence of falsepositive test results in lung cancer screening: a randomized trial. Ann Intern Med 2010. 152: 8, pp.505-180505-512, W176-180, doi: 10.7326/0003-4819-152-8-201004200-00007
https://www.researchpad.co/tools/openurl?pubtype=article&doi=10.3779/j.issn.1009-3419.2011.07.04&title=肺癌家系肿瘤风险度病例对照研究与预测模型&author=&keyword=遗传流行病学,家族聚集,一级亲属,肺肿瘤,遗传,Genetic epidemiology,Familial aggregation,First-degree relative,Lung neoplasms,Inheritance,&subject=临床研究,Clinical Research,