seqtk 模拟数据

来源：互联网发布：js反格式化工具编辑：程序博客网时间：2024/06/06 07:55

因为全基因组重测序样本数据量太大，样本数多，服务器吃不消，时间也太久，omictools上找一些可以模拟数据的软件。但是对比下来发现seqtk相对好用，也基本满足需求

如果仅仅是想走一遍流程，或者探究测序深度对结果影响可以使用seqtk。

1安装

git clone https://github.com/lh3/seqtk.git;

cd seqtk;

make

2使用

seqtk sample -s100 read1.fq 10000 > sub1.fq

seqtk sample -s100 read2.fq 10000 > sub2.fq

NOTE Subsample 10000 read pairs from two large paired FASTQ files (remember to use the same random seed to keep pairing)

3测试

seqtk sample -s100 ERR194146_1.fastq.gz 10 > sub1.fq

seqtk sample -s100 ERR194146_2.fastq.gz 10 > sub2.fq

这是千人基因组计划的样本NA12877，fastq1和fastq2各约50G，从中间各随机抽取10个reads

-s 后面的数字可以随便设置，但是必须相同。

速度并没有想象的快。如果电脑内存不足，可以加上-2这个参数。

2-pass mode: twice as slow but with much reduced memory

当然还有其他功能，可以查看说明书

https://github.com/lh3/seqtk

阅读全文

0 0