seqtk 模拟数据
来源:互联网 发布:js反格式化工具 编辑:程序博客网 时间:2024/06/06 07:55
因为全基因组重测序样本数据量太大,样本数多,服务器吃不消,时间也太久,omictools上找一些可以模拟数据的软件。但是对比下来发现seqtk相对好用,也基本满足需求
如果仅仅是想走一遍流程,或者探究测序深度对结果影响可以使用seqtk。
1安装
git clone https://github.com/lh3/seqtk.git;
cd seqtk;
make
2使用
seqtk sample -s100 read1.fq 10000 > sub1.fq
seqtk sample -s100 read2.fq 10000 > sub2.fq
NOTE Subsample 10000 read pairs from two large paired FASTQ files (remember to use the same random seed to keep pairing)
3测试
seqtk sample -s100 ERR194146_1.fastq.gz 10 > sub1.fq
seqtk sample -s100 ERR194146_2.fastq.gz 10 > sub2.fq
这是千人基因组计划的样本NA12877,fastq1和fastq2各约50G,从中间各随机抽取10个reads
-s 后面的数字可以随便设置,但是必须相同。
速度并没有想象的快。如果 电脑内存不足,可以加上-2这个参数。
2-pass mode: twice as slow but with much reduced memory
当然还有其他功能,可以查看说明书
https://github.com/lh3/seqtk
- seqtk 模拟数据
- file_get_content 模拟POST数据
- PI模拟数据配置
- javaee模拟数据
- 数据模拟工具
- Oralce创建模拟数据
- 数据模拟-mock.js
- 模拟UDP数据丢失
- JAVA 生成模拟数据
- Curl模拟提交数据
- wiremock 模拟数据
- 【数据抓取】模拟登陆
- mockjs模拟后台数据
- Android模拟后台数据
- express模拟mock数据
- 使用MyMockServer模拟数据
- 模拟服务器返回数据
- GAMETES数据模拟软件
- glibc uclibc eglibc之间的关系
- MyBatis CRUD实例
- Image segmentation + FCN介绍
- centos中使用swig实现python调用c++
- OkHttp之拦截器
- seqtk 模拟数据
- mount: can't find /mnt/cdrom in /etc/fstab or /etc/mtab
- 验证二叉查找树-LintCode
- 国家集训队论文分类整理
- maven安装以及myeclipse10配置maven
- SQL Server CDC简单总结
- 统计近12月份数据sql
- 服务化实战之 dubbo、dubbox、motan、thrift、grpc等RPC框架比较及选型
- phpcmsv9禁止提交信息到官网