总结之CSIG-MIIP 2017

来源:互联网 发布:广数980g75编程实列 编辑:程序博客网 时间:2024/06/06 12:34
  • 前言
  • 会议回顾
  • 总结

前言

  (我去这个会议有点不务正业的感觉,所以我要先解释一下)写在正文之前,我目前兴趣方向在机器学习、知识图谱等领域。CSIG-MIIP 2017(2017医学影像信息处理研讨会暨第三届长三角地区医学影像分析研讨会)看似和我目前的领域没什么关系,抱着满腔热血(不出意外,打算在Postdoc阶段搞CS的交叉应用,首选还是医学和生命科学,毕竟可以造福人类),所以还是起了个大早去参加了会议。事实证明有些英文词汇确实不太明白,不过还是受到了很大的启发,有些general idea还是很棒的,可以迁移在我之前的work上。
  写这样一个博客还有一个目的,希望可以把一些心得保留下来,方便日后回顾,也希望有兴趣的小伙伴可以一起交流。由于我知识水平有限,难免有些错误,如有错误还请赐教。

会议回顾

  由于这个会议是医学影像领域的,医学方面会有大量数据的产生,比如影像数据,Deep Learning又能很好吧地利用数据,所以Deep Learning成了本次会议被提及比较多的词。
  第一位讲者是Anant Madabhushi教授,来自Case Western Reserve University,talk的题目是“Computational Pathology and Radiomics: Implications for Precision Medicine”(计算病理学和放射组学:它们对精准医学的贡献)。由于之前很少接触这方面的英文,所以除了一些内容听得懂,大部分时间都是在看PPT。Madabhushi教授提到有些疾病信息分布在几个稀疏的数量级上,比如可以从10的负3次方到负10次方,从放射影像层面到一些分子层面,这里面就涉及几个概念“Knowledge Alignment”,”Knowledge Extraction”,”Knowledge Representation,Fusion”等。换句话说,也就是如何把不同层面的知识去做融合、抽取等等(我联想到知识图谱里面也有相应的概念,关于如何去利用这些不同的特征,也就是知识,之后有讲者就做了这方面的工作)。之后介绍了他们的一些工作,”Image-based Risk Score(Ibris)”,这个工作实际上是基于图去进行一个风险判断,类似于一个打分机制,具体细节也没有阐述;“Stacked Sparse Autoencoder for Nuclei Detection”,这是利用自编码器去做detection的一项工作,应该是有相关paper发表的。
  下面是Madabhushi教授的一个总结
  1.Image analytics on digital pathology could help address questions in precision medicine,specifically prognosis and predicting response to therapy.(数字病理学的图像分析可以帮助解决精确医学中的问题,特别是预后和预测治疗反应)
  2.Role of deep learning for creating deeply annotated datasets.(深度学习的作用,用于创建有标注的数据集)
  3.Handcrafted features extracted from digitized biopsy images could also potentially enable histo-genomics.(从数字化活检图像提取的手工特征也可能使组织基因组学成为可能。)
  4.Also potential opportunity to combine pathomic, radiomic and molecular features to create fused predictors of outcome.

  第二位讲者是来自第二军医大学附属长海医院放射科的阳青松博士,talk的题目是“多种磁共振新技术在前列腺癌早期诊断及分期中的运用价值”。这个talk光注意听了,所以没有拍照也没有记录,只好靠回忆了。目前,随着医疗水平的日渐增长和生活质量的提高,我国大部分癌症的发病率正在下降,但是前列腺癌的发病率却呈上升趋势(阳博士说这可能和生活习惯有关,习惯西化,要注意红肉的摄入,如牛肉),可能需要更多地关注前列腺癌,包括一些检测方法和治疗的研究。
  传统的前列腺癌检查可能需要做PSA,如果PSA值异常的话,需要进一步做细化检查。有的时候凭经验往往会漏检,或者需要穿刺很多次,并且穿刺很多次并不意味着找到病灶。这时候利用核磁共振和计算机技术,获取一些核磁共振的图像,通过计算机模拟,再使用“靶向穿刺”技术穿刺靶点,往往可以精确地穿刺到病灶。

  第三位讲者是浙江大学的刘华峰教授,talk的主题是心脏图像定量分析,介绍了有关工作。心脏建模工作是基于图像分割的,在分割之后,通过数学方法即有限元分析,去建立一个心脏模型(这个模型的数学表达不是通过数学约束而是生物力学约束,类似于力学中的胡克定律),通过矩阵等数学工具的求解,解出心脏的杨氏模量等。但是这种方法往往有着求解复杂的问题,不利于求解。而Deep Learning Method在医学图像分割、医学图像识别和计算机辅助诊断等领域均有大展宏图之地,如何利用Deep Learning?


  “Stacked Denoising Autoencoder&Support Vector Machine based framework”的工作中使用了Deep Learning,思路非常简单,由图片作为patches,然后和心脏内膜外膜等的运动信息即速度等融合,利用自编码器,做deep representation,得到全新的表达(特征),利用这些特征和支持向量机训练出一个分类器,用于detection。

  第四位讲者是杭电的厉力华教授,talk主题是影像基因组学与肿瘤精准诊疗。回顾了肿瘤智能化诊疗技术的发展,包括三个维度:
  一、更多应用,如从CAD到CAS/CAT
  二、更多特征,如从CAD到放射影像学
  三、新的挖掘技术,如从CAD到深度学习
  何为精准医疗?“应用现代遗传技术、分子影像技术、生物信息技术,结合患者生活环境和临床数据,实现精准的疾病分类和诊断,制定了具有个性化的疾病预防和诊疗方案”。实际上,精准医疗包含很多方面,而不局限在某个方面,包括风险精确预测、疾病精确诊断、疾病精确分类、药物精确应用、疗效精确评估、疗后精确预测等。但是精确医疗也存在着一些挑战–肿瘤异质性,比如不同人之间的肿瘤存在肿瘤间异质性,同一肿瘤内存在的空间异质性,同时还具有时间异质性。除此之外,不同个体、不同区域还具有差异性。
  将精确医疗的domain缩小到肿瘤精确医疗,往往要包含其他几个方面:BioInformatics(生物信息学)、Public Health Informatics(公共卫生信息学)、Imaging Informatics(图像信息学)、Clinical Informatics(临床信息学)。
  影像基因组学,搭建影像学和基因组学之间的桥梁。影像组特征,反映肿瘤整体结构、功能信息,具有无创、全局、动态等特点;而基因组特征,反映肿瘤局部分子机制信息,具有有创、局部、静态特点,两者的结合,可以很好弥补各自的缺点,搭建从宏观到微观尺度的桥梁。与此同时,成像可以很好地测量血流、细胞大小等表型特征,可以通过量化基本生物物理参数来量化个体肿瘤的体系结构和功能的空间变异,可以使用PET、MRI和其他新兴的分子成像技术绘制生物化学通路和细胞信号传导网络的空间分布。但是影像基因组学仍然存在一些问题,如


  Concluding Remaks:
  1.The heterogeneity is a clear barrier to the goal of pricision therapy.(异质性是精准治疗目标的明显障碍)
  2.There is prognostic and biologic information enclosed in routinely acquired medical imaging.(常规获取的医学成像中包含预后和生物学信息)
  3.Imaging signature is significantly assciated with the underlying gene expression patterns.(成像特征与潜在的基因表达模式显著相关)
  4.Radiogenimics provides a noninvasive,fast,low cost and repeatable way of investigating phenotypic information and its association with genotype,potentially speeding up the development of precision medicine.(放射免疫学提供了非侵入性,快速,低成本和可重复的方式来调查表型信息及其与基因型的关联,可能加速精准医疗的发展)

  第五位讲者是中科大的朱磊教授,talk关于锥束CT成像技术前沿问题研究,朱教授本科来自THU,硕士博士都是在Stanford(听到这个介绍,瞬间两眼放光),虽然之前对这个talk主题不是很了解,但是整个talk讲得比较有意思,所以听得还是比较清楚明了。


  CT成像通常由光源发出光(射线),在对应的地方会有一个接收装置,用于接收光源发出的光。传统CT不容易产生散射现象,光源发出的光抵达接收装置或者被衰减,但是锥束CT的光是锥形,容易发生散射,使得成像质量较低,即误差大。同时,还存在辐射剂量伤害的问题。


  那么,散射校正就显得尤为重要。目前常见的方法有系统优化法、散射测量法、解析建模法、蒙卡模拟法、先验信息法等,有如下方案:
  方案一、基于重复扫描的散射校正,通过重复扫描锥束CT,即对病人建立局部扫描建立散射库,后续扫描实现散射校正。
  方案二、针对简单物体的库函数法,针对乳腺专用的锥束CT中,在规则水膜体上做蒙特卡洛仿真建立库函数,实现散射校正。
  方案三、单扫描测量法,利用圆轨迹扫描中的数据冗余度(近似)实现单扫描散射测量及校正。

  方案四、先验数据法(投影域),将高质量诊断CT(计划CT)收集的数据作为锥束CT的先验数据。
  方案五的思路和方案四的思路大致相同,方案五是基于图像域的,采用图像域校正。
  方案六、源调制法,该方法不需要先验数据,对源射数据“编码”。在光源处放置一个布满小孔的遮光板(这就是所谓的“编码”),散射信号是低频、光滑的,其几乎不受遮光板的影响,即有无遮光板其不会发生太大变化。

  第六位讲者是江苏省人民医院的张玉东博士,talk主题是临床驱动下的医工结合科学研究探索与体会。张博士颠覆了我对医生的理解,张口就来的“SVM”、“Deep Learning“、“动力学模型”(这还是医生吗?!),并将人工智能运用到了临床医学,尤其在决策方面。在前列腺癌风险预测的工作中,利用多角度的特征(医学图像特征+传统医学指标)去训练分类器,从而很好地为医生提供决策辅助。除此之外,可以用于术前估计风险和术后复发概率的估计(术后复发概率的工作,可以参考最后一位讲者的工作,相关工作发表在Nature)


  上图是张博士提出的一个架构,通过这个架构可以更好地帮助医生去做出决策,AI计算中心的计算结果可以用于图像自动分割、病灶自动识别、穿刺手术导航、恶性自动判断、Risk分级评估、组学分析和术后生存预测,期待这一天的到来。

  第七位讲者是中国科学院苏州生物医学工程技术研究所的高欣研究员,talk内容为基于影像基因组学方法的肝细胞癌影像特征识别的初步研究
  目前提取肿瘤标记物的方法有两种,一种是分子类,另一种是影像学,分子类具有侵入性、可重复性差、局部、费用高、临床医用范围小、表征肿瘤的生物和分子机制,可解释性强等特点,而基于影像学的方法恰恰相反,具有非侵入性、可重复性好、全局、费用低等特点,但是无法解释组织学水平的某些特征。那么,如何将分子层次信息(如基因表达量、致癌基因的表达通路等)融入到影像学方法中?
  所做的工作还是比较有意思的,从基因数据库中获取基因表达,提取出特征基因,与此同时,从影像数据库中提取对应的肝肿瘤CT,通过聚类子区域获取影像特征,对特征基因和影像特征做相关分析,然后进行分析。下面是子区域聚类的work flow(聚类算法使用k-means)


  实际上通过相关性分析,可以得到某个影像特征和特征基因的关联,这样的关联关系就使得影像特征可以很好地用分子层次的信息解释,又很好地发挥了影像学的特点。

  第八位讲者是华西医院的包骥博士,talk关于病理图像如何携手人工智能来自医生视角的一些经验。这个talk角度和之前都不太相同,之前主要都是来自于放射影像领域,从病理角度或许有些新idea。不同于放射影像,病理学影像需要后期进行数字化,而放射影像本身的呈现方式就是数字化图片。其次,病理医生在数量上就有缺口。如何去解决这样的问题?


  第九位讲者是来自Case Western Reserve University的Dr.Cheng Lu,talk关于基于组织学形态特征的口咽及口腔病理计算机辅助预后。这是本次会议的最后一个talk,由于比预计时间晚一个小时,所以会议现场走了不少人。这个talk给我的启发还是比较大的,尤其是里面挑选特征的思路,庆幸当时没有走。
  这是工作一的两个假设,假设一为数字TMA的OH特征可以区分口腔鳞状细胞癌模型队列中的复发与非复发之间的差异,假设二为对建模队列训练的分类器能够在保留验证队列中提供独立的预后信息。


  下面是数据集的描述以及整个实验流程的描述,50个病人作为训练集,另外65个病人作为测试集。


  下面着重讲述特征的获取和选择。首先在TMA取4mm^2的区域,将该区域放大20倍,之后的实验都基于此。设置阈值k,将k个相邻的细胞核相接,组成一个大的单元,Dr. Lu称为最小异构网络。除了传统的指标,如细胞核的大小等等作为特征,该工作还使用Co-occurrence Matrix去构建新的特征(该工作中,共生矩阵描述的是三种大小的细胞核两两同时出现的概率)。假设上述步骤中选取k=10,特征数为13,那么该如何挑选特征去代表一个小网络(由于样本数为50,希望从130个特征中挑选5个特征)。

  特征选择,将训练集分成3份,每次取2份,这样可以有3种不同的组合,按上述步骤重复100次,共得到300个结果,然后进行feature ranking取前五个特征,这里的特征选择可以使用秩和检验、Random Forest等。

  工作一的总结:The quantitative computer extracted cellular diversity feature is able to provide prognostic information in stratifying recurrence vs non-recurrence patients of oral cavity squamouse cell carcinoma.(定量计算机提取的细胞多样性特征能够提供分层复发与口腔鳞状细胞癌非复发患者的预后信息)
  发现有高风险患病的病人是非常重要的,但是发现低风险的病人似乎是更重要的。幸存患者的治疗发病率可能很大,而这些一般年龄较小并且出现较少并发症的患者在治愈后长时间存活。新生物标志物可以将生物学良好的癌症与更恶性的癌症区分,有助于靶向正确的患者以降低治疗的强度。
  工作二实际上是要建立一个更好的分类器,具有更好的泛化能力。将刚刚的特征替换,使用新的特征,在工作一中构建了最小异构网络,在工作二中提出了“Feature Families”的概念,增加泰森多边形、最小生成树等去构造不同单元,产生更多更general的特征。传统指标还包括纹理、方向等。

  接下来同样要面对特征选择的问题,这里的问题似乎比工作一中的问题更加麻烦,因为这里引入了“Feature Families”。不同特征组中top特征可以从不同的方面去描述核层面的一些信息,这样来增加模型的泛化能力。从每个特征组中挑选1-5个特征去构成最终的特征,依据每一个特征组的表现,这里表现为AUC值。分别用不同单元组的特征去训练,根据得到的AUC值决定每组贡献几个特征。
  在最终决策阶段,使用“One spot rule”原则,即一个样本的细胞核有一个的风险值大于0.5,即认为其有预后复发的可能。

总结

  本次会议带给我几个灵感,一是关于锥束CT的talk中,是否可以将库函数的method迁移到其他方面,比如之前遇到一个物体识别的问题,物体周围有阴影,如何去阴影?是否可以利用先验知识,构建阴影模板并将原图减去阴影模板。二是高研究员的talk,将影像特征和特征基因相关联,这样两者之间就可以相辅相成,使得影像特征也具有了很好的生物学解释。三是最后一个talk,基于图像提取特征,和我之前做的一个work非常像,当时我们是从图像的几个颜色空间,然后提取一阶矩、二阶矩等,构建特征的,这是很general的方法,之后可能会尝试使用新的特征构建方法构建新的分类器。另外,该工作中的特征选择方法,包括特征组的使用,同样值得在后续的工作中进行尝试。
  目前在医学领域使用机器学习方法,比较普遍的是Deep Learning,如果用其他方法的话,可能需要更多的hand-crafted features,但是Deep Learning是个black box,难以解释一直是其诟病。仅仅给出答案,而不能给出理由,可能在医学领域无法大规模应用。如何使得Deep Learning的可解释性增加,应该也是学界一直在关注的事情,今年的IJCAI大会上就有可解释性人工智能XAI的workshop,后续有时间的话会读一些相关工作并写一些博文,敬请期待。

传送门:
1.知识工场:基于知识图谱的可解释人工智能
2.IJCAI 2017 Workshop on Explainable Artificial Intelligence (XAI)
3.The Center of Computational Imaging and Personalized Diagnostics (CCIPD) at Case Western Reserve University

原创粉丝点击