第一个接近完整的六倍体小麦基因组
来源:互联网 发布:知乎为什么不能发文章 编辑:程序博客网 时间:2024/04/27 16:52
第一个接近完整的六倍体小麦基因组
今天在bioRxiv看到刚在线的有关小麦基因组的文章。文章题目是“The first near-complete assembly of the hexaploid bread wheat genome,Triticum aestivum”。
看到文章作者和单位的时候,我有点不淡定了。作者不太熟悉,猜测应该不是和IWGSC那伙人是一起的。作者单位包括约翰斯·霍普金斯大学,太平洋生物科学公司(研发PacBio测序的公司),马里兰大学帕克分校。如果看过今年发表在Genome Research上有关粗山羊草的文章,对这一篇文章所采用的技术路线应该比较熟悉,因为两者采用的组装策略基本一致。我们主要说说与IWGSCv1.0版本相比有哪些优点和缺点。
两者都是对中国春这一来自中国四川的小麦材料进行测序。IWGSCv1.0版本只采用了二代测序的reads,一点没有采用PacBio平台的数据。进一步结合Hi-C数据以及群体遗传数据,最后将序列组装至染色体水平。但是IWGSCv1.0版本的缺点之一就是gap太多,大概是只采用了二代测序的reads的缘故,不能有效覆盖GC含量高的区段和跨越高度重复区域。IWGSCv1.0版本的另外一个缺点是组装出的基因组扔不够完整,这个版本有14.79Gb还是远小于预计的17Gb。
相比IWGSCv1.0版本,本次发布的版本(Triticum 3.0 )在序列连续性上要比前者要好很多,根据文中的说法,contig的连续性要高24倍,组装出的基因组也达到了15.34Gb.但是最大的缺点就是没有组装至染色体水平,因为没有结合现在流行的Hi-C等技术。如果采用这些数据,最后的结果应该要比IWGSCv1.0要好。这个版本用来补IWGSCv1.0的gap还是挺不错的。
相比结果的分析,我更惊讶于组装所花的时间。组装使用的计算集群算是比较大了,但是仍然花了半年多的时间。这里就不在细说了,详细看文章吧。
另外序列数据已经上传至NCBI(PRJNA392179),但是数据现在仍然查不到,估计会晚些时候释放。
- 第一个接近完整的六倍体小麦基因组
- 野生二粒小麦基因组在science发布
- 【学习心得】-第一个完整的三角类
- 【学习心得】-第一个完整的三角类
- ListView的第一个item完整显示
- 我的第一个完整程序
- NDK_JNI 第一个完整的 小DEMO
- 初识struts2,第一个完整的例子
- 完整的第一个后台selenium Demo
- 人生的第一个完整类
- 小麦的学习笔记
- 最最爱的小麦
- 小麦子-WPF学习系列3:一个完整的界面案例
- 6个接近完美的创业要素
- 写的第一个完整的ant实例
- 我的第一个完整的JAVA作品
- 我的第一个完整的Windows应用程序
- 第一个完整的程序。著名的俄罗斯方块
- 程序员常见English word
- Unicode编码及其实现:UTF-16、UTF-8,and more
- DateUtil
- Geeklora简介
- shouldInterceptRequest、shouldOverrideUrlLoading区别
- 第一个接近完整的六倍体小麦基因组
- PHP图片上传程序
- 2017-7-4
- spring+hibernate
- Java List的并集 交集 差集 去重复并集
- Hibernate 使用原生SQL 预编译过程中,插入字符串遇到SQL字符串错误
- Geeklora配置
- 搭建Codis
- 完美破解C# DLL