利用决策树分析乳腺癌患者存活

来源:互联网 发布:jojo超像可动淘宝 编辑:程序博客网 时间:2024/05/18 01:08

1.背景

乳腺癌是发生在乳腺腺上皮组织的恶性肿瘤。乳腺癌中99%发生在女性,男性仅占1%。乳腺并不是维持人体生命活动的重要器官,原位乳腺癌并不致命;但由于乳腺癌细胞丧失了正常细胞的特性,细胞之间连接松散,容易脱落。癌细胞一旦脱落,游离的癌细胞可以随血液或淋巴液播散全身,形成转移,危及生命。


全球乳腺癌发病率自20世纪70年代末开始一直呈上升趋势。美国是乳腺癌的高发国家,8名妇女一生中就会有1人患乳腺癌。中国虽不是乳腺癌的高发国家,但不也并不乐观,近年我国乳腺癌发病率的增长速度却高出高发国家1~2个百分点。据国家癌症中心和卫生部疾病预防控制局2012年公布的2009年乳腺癌发病数据显示:全国肿瘤登记地区乳腺癌发病率位居女性恶性肿瘤的第1位,女性乳腺癌发病率(粗率)全国合计为42.55/10万,城市为51.91/10万,农村为23.12/10万。


在乳腺癌的诊疗上,现在已经有一些比较成熟的免疫组化指标,包括雌激素受体(ER)、孕激素受体(PR)及人表皮生长因子受体2(HER-2)等等。其中ER和PR是正常乳腺上皮细胞中存在的性激素受体,乳腺的生长,发育和细胞增殖受到雌激素和孕激素的调控。当ER和PR水平下降(检测为阴性)时,肿瘤生长不受内分泌激素控制,内分泌疗法的有效率会降低。HER2是乳腺癌的预后指标和药物治疗效果的预测指标。而第一个靶向HER2的人源化单克隆抗体——曲妥珠单抗(赫赛汀)的的问世,显著改善了HER2阳性乳腺癌患者的预后。

2.问题描述

如果利用患者年龄,分子标记等信息预测其三年生存率?

3.数据集

数据集合共包括1981个病人的数据,综合自多个研究组的数据,我们主要利用的病理指标见下表:

X[0]X[1]X[2]X[3]X[4]X[5]X[6]X[7]年龄肿瘤大小转移淋巴结数目分期ER_IHC_statusER水平PR水平HER2水平

在这8个变量中,对于分子标记类的数据只有0和1两种状态,对应阴性和阳性。对于每个病人,我们忽略了其关于治疗方案的数据,尽管这些数据在决定存活率上有着很大作用,我们将在考察不同治疗方案对于不同生理特性患者治疗效果的时候考虑这部分数据。

4.建模结果

我们这里选取决策树(Decision Tree)作为建模手段,树的深度为3层,分叉采用Gini系数作为标准,得到的决策树如下图所示(为了防止数据被错误使用,我们进行了部分处理):


该决策树从根节点出发进行判断,判断标准见方框中第一行语句,如果判断为真的话进入左边的分支,判断为假的话进入右边分支。经过多重判断最终达到叶节点。叶节点中方括号中的两个数字分别对应存活(0)和死亡(1)的样本数。这里我们举例说明,有一位患者年龄为80岁,那么我们首先判断他是否满足第一个节点(根节点)的判断条件,即年龄小于等于71.2岁,答案为false。那么我们到达第二层右侧的节点,我们接下来判断他是否满足年龄小于等于85.7岁,答案为true,进入左侧的子节点,这时我们仍要判断该患者肿瘤大小是否大于24.5,如果大于24.5的话进入右侧的子节点,该节点为一个叶节点,其中包括71个存活样本和162个死亡样本,所以可以判断我们的患者生存机会约为30.5%。


从这棵树中我们可以发现很多有用的信息,比如年龄是一个非常重要的因素。年龄大于71.2岁的患者群体总体生存率较低,总体来讲不高于36%,而年龄大于85.7岁的患者生存率更加低。这应该还是主要由于年龄越大自然死亡的概率也更大。在年龄较大的患者中,肿瘤大小对存活率有着一定影响。而在年龄小于71.2岁的患者群中,统计上最关键的要素是已转移淋巴结个数,其次是分期和肿瘤大小。总体来讲在忽略治疗方案的情况下(作为某种近似),最重要的影响要素还是年龄分期肿瘤大小等,和我们的直观比较相符。

注:本文仅供研究交流,文中任何信息不能利用于诊疗临床。

0 0
原创粉丝点击