seqtk 模拟数据

来源:互联网 发布:js反格式化工具 编辑:程序博客网 时间:2024/06/06 07:55

因为全基因组重测序样本数据量太大,样本数多,服务器吃不消,时间也太久,omictools上找一些可以模拟数据的软件。但是对比下来发现seqtk相对好用,也基本满足需求

如果仅仅是想走一遍流程,或者探究测序深度对结果影响可以使用seqtk。


1安装

git clone https://github.com/lh3/seqtk.git;

cd seqtk;

make

2使用

seqtk sample -s100 read1.fq 10000 > sub1.fq

seqtk sample -s100 read2.fq 10000 > sub2.fq

NOTE Subsample 10000 read pairs from two large paired FASTQ files (remember to use the same random seed to keep pairing)


3测试

seqtk sample -s100 ERR194146_1.fastq.gz  10 > sub1.fq

seqtk sample -s100 ERR194146_2.fastq.gz  10 > sub2.fq

这是千人基因组计划的样本NA12877,fastq1和fastq2各约50G,从中间各随机抽取10个reads

-s 后面的数字可以随便设置,但是必须相同。

速度并没有想象的快。如果 电脑内存不足,可以加上-2这个参数。        

2-pass mode: twice as slow but with much reduced memory

当然还有其他功能,可以查看说明书


https://github.com/lh3/seqtk






原创粉丝点击