【文献阅读】Convolutional neural network architectures for predicting DNA-protein binding

来源:互联网 发布:日本社交软件 编辑:程序博客网 时间:2024/05/22 14:26

应用CNN预测DNA结合蛋白质序列

不同的卷积结构会影响测试结果

本文的工作及结论:

  1. 用CNN预测DNA结合序列(使用转录因子数据集)
    调整神经网络的宽度、深度以及池化层的设计
  2. 与其他类型的网络模型相比,CNN在提取高阶序列特征时表现比较好
  3. 使用了一些混合因子(confounding effects), 如positional or motif strength bias.,发现序列结构基准数据集对CNN的表现有很大影响。
  4. 探索如何建立有效的测试集,提出了一种云框架以便后期工作

    • 现在的两个应用深度学习预测DNA结合蛋白质序列的方法:DeepBind(Alipanahi et al., 2015),
      DeepSEA(Zhou and Troyanskaya, 2015)

    • 训练数据:使用一些高通量数据 (High-throughput data), 本文中使用的是Encyclopedia of DNA Elements (ENCODE) project (Bernstein et al., 2012)

    • 如何将计算机视觉的深度学习方法应用于基因学:
      将一个窗口的基因序列当作一个有四个通道(A, T, C, G)的图像
      (需要解决的问题:如何在这个序列窗口中建立这个图像)

    实验结果

    1. max-pooling的局部性越强,网络的表现越差;低层数目越多,网络的效果越差。(不必要的复杂度会引入噪声)
    2. CNN在提取高维特征(higher-order features)的时候表现比较好。
    3. 不同CNN结构对数据集大小要求不同。
阅读全文
0 0
原创粉丝点击