论文Deep Learning for Identifying Metastatic Breast Cancer论文心得

来源：互联网发布：ultraiso软件有多大编辑：程序博客网时间：2024/06/04 18:19

原文下载链接下载在这里

这篇论文Abstract部分呢，先吹了下这个团队取得的成就，当然，确实很厉害，主要就讲了国际生物医学影像技术研讨会（ISBI）举办了一个很大的挑战，主要就是为了计算机系统能够在一张全扫描图片（前哨淋巴结）自动检测乳腺癌前哨淋巴结转移部分，他们获得AUC曲线0.925，肿瘤定位是0.7051，对比了下病理医生AUC为0.966，而两者结合，也就是hi计算机加病理医生结合，AUC为0.995，很高啊，相当于比人类减少了85%的错误率，可以看出，这个前景大大的。

1 Introduction

就讲了病理医生辛苦啊，累啊，还不准确，说什么医学专业的医生任务就是准确诊断疾病，然后带领病人好好治疗，给病人一个治疗方案，我曾经听到AirDoc一个CEO讲到，在中国，初诊的正确率只有三分之一不到，这还不包括在小镇医院，很可怕，如果能早点知道你是癌症啊，不是当感冒啥的能治，活的还比较久，回到正题：

原文讲了下定性视觉分析存在的局限：缺乏标准化，诊断错误，人工认知负荷（你每天看几百万个细胞不累啊），还好，这十年，人们已经认识到计算机开发算法协助分析病理图像很重要啊。

然后这个ISBI就举办了这个挑战，后来就巴拉巴拉讲了一大推手工检查累啊，总之就是没有计算机检查好，最好两者结合，特别强调一些小的转移区域啊，一些阴性的，特别难检查到。

又提了下计算机辅助分析系统已经被应用到前哨淋巴结转移小区域的检测中，但是还没有临床使用，这个发展趋势是非常好的。

然后文中提出了一种基于深度学习的方法，这个方法的答题思路呢就是用数以百万的train patch来训练一个深度卷积神经网络，来做一个patch-level的预测，我的理解呢，就是分成一些小的256X256的块，然后先预测这些块是不是肿瘤区域，并得到一个概率，最后呢将这个块拼接起来，得到一个slide-based的预测，又生成了热值图，然后一些后处理部分进行分类和肿瘤定位任务。

2.1 文章的第二部分呢就是讲了训练集的由来以及比赛评估的指标：

比赛方提供了400张全扫描图片，其中270张用来训练，130张用来测试，这两个分类是由两个组织提供的，如下表

able 1: Number of slides in the Camelyon16 dataset.
Institution Train
cancer Train
normalTestRadboud UMC
UMC Utrecht 90
70 70
40 80
50Total 160 110 130还讲到ground truth训练数据是由病理医生标记的，包括两个格式，xml文件，这个文件有着将转移区域标记出来的坐标，就是用坐标将转移区域圈了起来；还有一个就是全扫描的二进制图，应该就是黑白图吧，来表明转移区域的位置。

2.2 评估指标

slide-based 评估：主要就是team判断slides来区分是正常的还是包含转移的，然后再提交test silde 来表明包含转移可能的概率，组织方使用AUC得分来测量每个参与者的性能。

Lesion-based 评估： teams提交一个转移的概率以及相应对应的位置，应该是用坐标表示，组织者再测量一个平均敏感度，这里附上原文，我也不是很懂

Lesion-based Evaluation: For this metric, participants submitted a probability and a corresponding(x; y)location for each predicted cancer lesion withinthe WSI. The competition organizers measured participant performance as the average sensitivity for detecting all true cancer lesions in a WSI across 6 false positive rates: 1/4,1/2, 1, 2, 4, and 8 false positives per WSI.

然后就是方法了

3 Method

预处理是为了组织检测区域的可视化，减少计算时间，首先确定组织区域，去除白色背景空间。方法呢是采用阈值分割的方法，首先将原图像从RGB颜色空间转换到HSV颜色空间，然后对每个通道采用OSTU阈值法，最后的mask图由mask H 和 mak S组成，如图可以看出，组织区域用绿色的线突出出来

3.2 癌症转移检测框架

转移检测框架由pacth-based 阶段和heatmap-based后处理阶段组成，如下图，很经典的训练测试图，大神果然很强势

文中提出，作者随机挑选了数以百万的阳性和阴性作为训练集，如果这些小的patch在肿瘤、阳性区域标记为1，在正常的、阴性的区域标记为0，训练一个监督分类模型来区分这两个patch，然后基于这个预测结果生成一个热制图，在heatmap-based后处理部分根据这个热值图计算slide-based和lesion-based评估。可以看出，这个热制图是最重要的，前面所有的训练。努力都是为了生成这个热制图。

训练阶段中采用256X256像素的patch来训练模型区分阳性阴性的patch，然后评估了四个网络，最终选择的GoogleNET，27层，超过600多万个参数。

文中提到采用了40倍20倍和10倍下的图，最终采用40倍下的图，然后注意到训练时有个很容易出错的地方就是假阳性引起的错误，于是为了提高这些地区的模型性能，提取附加从这些困难的阴性区域来丰富模型的训练集，结果如图3。

3.4 得到热图了现在就是计算两个评分了

实验室不要求这部分，暂时就不讨论了附上我的一些数据图

0 0