第一个接近完整的六倍体小麦基因组

来源：互联网发布：知乎为什么不能发文章编辑：程序博客网时间：2024/04/27 16:52

第一个接近完整的六倍体小麦基因组

今天在bioRxiv看到刚在线的有关小麦基因组的文章。文章题目是“The first near-complete assembly of the hexaploid bread wheat genome,Triticum aestivum”。

看到文章作者和单位的时候，我有点不淡定了。作者不太熟悉，猜测应该不是和IWGSC那伙人是一起的。作者单位包括约翰斯·霍普金斯大学，太平洋生物科学公司（研发PacBio测序的公司），马里兰大学帕克分校。如果看过今年发表在Genome Research上有关粗山羊草的文章，对这一篇文章所采用的技术路线应该比较熟悉，因为两者采用的组装策略基本一致。我们主要说说与IWGSCv1.0版本相比有哪些优点和缺点。

两者都是对中国春这一来自中国四川的小麦材料进行测序。IWGSCv1.0版本只采用了二代测序的reads，一点没有采用PacBio平台的数据。进一步结合Hi-C数据以及群体遗传数据，最后将序列组装至染色体水平。但是IWGSCv1.0版本的缺点之一就是gap太多，大概是只采用了二代测序的reads的缘故，不能有效覆盖GC含量高的区段和跨越高度重复区域。IWGSCv1.0版本的另外一个缺点是组装出的基因组扔不够完整，这个版本有14.79Gb还是远小于预计的17Gb。

相比IWGSCv1.0版本，本次发布的版本（Triticum 3.0 ）在序列连续性上要比前者要好很多，根据文中的说法，contig的连续性要高24倍，组装出的基因组也达到了15.34Gb.但是最大的缺点就是没有组装至染色体水平，因为没有结合现在流行的Hi-C等技术。如果采用这些数据，最后的结果应该要比IWGSCv1.0要好。这个版本用来补IWGSCv1.0的gap还是挺不错的。

相比结果的分析，我更惊讶于组装所花的时间。组装使用的计算集群算是比较大了，但是仍然花了半年多的时间。这里就不在细说了，详细看文章吧。

另外序列数据已经上传至NCBI（PRJNA392179），但是数据现在仍然查不到，估计会晚些时候释放。
这里写图片描述

阅读全文

0 0