文献阅读--A systematic approach to identify novel cancer drug targets using machine learning, inhibitor

来源:互联网 发布:淘宝详情页模板图 编辑:程序博客网 时间:2024/05/15 11:33

最近找了一些,预测肿瘤药物靶点的文献看看,这篇我挺感兴趣。

我主要阅读了靶点预测部分,一些专业的东西还不理解,暂粗浅的记录下


用机器学习算法,找新的癌症药物靶点

中心思想:用已知的训练集学习得出一个分类器(模型),再对未知的数据集进行分类

特征
收集癌症药物靶点的基因级信息,包括:

这里写图片描述
作为机器学习的特征空间

原始数据集
1. 已知药物靶点数据集2.未知药物靶点数据集

已知药物靶点数据集:collecting anti-BrCa, -PaCa and -OvCa drugs, their targets were identified from DrugBank [31] and the Therapeutic Target Database. In total, 62 known BrCa drug targets, 69 known PaCa targets and known 45 OvCa targets constituted the positive dataset。

未知药物靶点数据集:相关蛋白,在DrugBank和Therapeutic Target Database 没有记录;没有注释为癌症相关蛋白;不与肿瘤药物靶点相互影响;没有分享Pfam功能域;与已知靶点序列相似。

用文本挖掘的方法,挖掘在肿瘤研究文献中的所研究的15663个基因,统计出5169个基因可作为未知药物靶点数据集。

机器学习和特征选择

算法:支持向量机(SVM)
目的:将要预测的数据集,分为有癌症药物靶点或无癌症药物靶点两类。

特征选择:用SVM-REF方法,对13个特征评分,根据评分,最终得到5个相关的特征,包括:Average gene essentiality,Average mRNA expression,Average DNA copy number,Mutation occurrence,Clustering coefficient。

在用最优的特征集,训练集来得出最优的预测模型。
BrCa prediction model
PaCa prediction model
OvCa prediction model

靶点预测

用生成的预测模型,对15663个人基因分类.

预测结果:1655个基因作为假定靶点,对不同的癌型有不同的预测分值,可根据分值选取后续验证的靶点。
这里写图片描述

阅读全文
0 0
原创粉丝点击