SOAPfuse——融合转录本鉴定软件使用说明
来源:互联网 发布:sqlserver配置要求 编辑:程序博客网 时间:2024/06/06 01:03
SOAPfuse:利用双末端RNA-Seq数据鉴定融合转录本
SOAPfuse是华大开发的从 paired-end RNA-Seq 数据全基因组范围内探测融合转录本的开放性工具,其以perl语言为基础,应用一种改进的部分穷举法,构建一个用于探测融合事件的数据库,通过层层过滤,来鉴定融合转录本,以方便对人类RNA-Seq数据的分析。通过对数据库的合理构建,SOAPfuse也能用于其他物种RNA-Seq数据的分析。相比于目前开发出来的其他20个用于探测融合转录本的工具,SOAPfuse有以下优点:
- 检测效率高
- 节省计算资源
- 精细过滤
- 高效检测融合转录本
- 融合断点预测
- 结果可视化
软件本身是为人类RNA-Seq数据分析所用,但在我的研究中想将其用于黄瓜(Cucumis sativus L.)转录组的分析,故本文中将以人类及黄瓜两个物种对SOAPfuse的使用进行介绍。
安装
目前SOAPfuse软件已经更新到1.27版本,软件的下载地址可以从官网 SOAP :: Short Oligonucleotide Analysis Package找到,或者直接点击SOAPfse Download下载。
SOAPfuse软件只能在64位的Linux系统下操作,并需要至少5.8.5版本的Perl支持。
下载完成后,直接在Linux系统终端下解压缩即可, $ tar -xzf /PATH_WHERE_YOU_PUT_THE_TARBALL/SOAPfuse-vX.X.tar.gz
$ cd /PATH_WHERE_YOU_PUT_THE_TARBALL/SOAPfuse-vX.X/
运行准备
由于SOAPfuse特殊的比对与过滤方法,在正式运行软件进行融合转录本的探测前,需要准备如下文件:
- RNA-Seq数据集
- 样本列表 (sample list)
- 配置文件
- 构建数据库所需文件
- 基因组参考序列
- 基因组注释文件(gtf格式)
- 染色体核型信息
- 基因家族注释文件
- 基因组参考序列与基因组注释文件中染色体标记的对应关系
RNA-Seq数据集
高通量测序后得到的转录本信息,为fastq格式。由于SOAPfuse识别融合转录本的功能只针对双末端RNA-Seq后的数据,所以RNA-Seq数据集的结构如下:
其中:
- 第一层为全部RNA-Seq数据所在文件夹;
- 第二层为不同样本的RNA-Seq数据,文件夹名为样本ID;
- 第三层为测序时构建的不同文库,若只有一个文库信息,则不作区分,但此层目录必须存在;
- 最后一层为对同一样本、同一文库的RNA-Seq双末端数据进行的不同运行,可以有参数上的差异,同一次运行需要两个fastq文件,不需解压缩。
由于SOAPfuse软件运行的标准化,RNA-Seq数据必须以上述文件目录结构存于总测序信息目录下。
样本列表
SOAPfuse的运行需要一个样本列表文件,存储所需运行的RNA-Seq数据信息,其主要格式如下:
样本列表共四列,其中第一列为样本ID,第二列为序列文库ID,第三列为运行ID,最后一列为双末端测序读长信息,其内容需要与上述RNA-Seq数据目录结构一致。
同一样本测序结果存于一个样本列表中,各个样本列表并行处理。但当对癌症转录本进行分析时,同一病人的正常组织与癌变组织的RNA-Seq数据可存于同一样本列表中,以便对照分析。
配置文件
SOAPfuse的运行需要引用一个配置文件,查看方式如下:
$ cd /PATH_WHERE_YOU_PUT_THE_PACKAGE/SOAPfuse-vX.X/config/
$ less -S config.txt
配置文件的内容很容易理解,主要以 变量=值 的方式进行修改。
配置文件中一些缩写信息需要注意:
- ‘DB’– DataBase,数据库信息
- ‘PG’– ProGrams,程序信息
- ‘PS’– Pipeline Steps,管道运行步骤信息
- ‘PD’– Pipeline Directories,管道目录信息
- ‘PA’– PArameters,参数信息
以下几个参数为必须修改项,需留意:
1. 设置数据库所在目录
DB_db_dir = /DATABASE_DIR/
2. 设置程序运行脚本所在目录 PG_pg_dir = /TOOL_DIR/source/bin
3. 设置管道目录 PS_ps_dir = /TOOL_DIR/source
4. 设置输出目录 PD_all_out = /out_directory/
5. 设置RNA-Seq数据文件后缀 PA_all_fq_postfix = PostFix
数据库构建
对数据库的构建是运行SOAPfuse最为关键的一步,需要五个必需文件。软件作者对于构建数据库的介绍为Construct_SOAPfuse_database
$ cd /PATH_WHERE_YOU_PUT_THE_PACKAGE/SOAPfuse-vX.X/source/$ perl SOAPfuse-S00-Generate_SOAPfuse_database.pl -h$ perl SOAPfuse-S00-Generate_SOAPfuse_database.pl <Options>
全基因组参考序列 (-wg)
从NCBI、Ensembel或者各物种基因组数据库中下载基因组参考序列的fasta格式文件,注意该版本参考序列中各染色体标签的格式,在后面会用到。
基因注释文件 (gtf)
SOAPfuse只识别gtf格式的基因注释文件,如果所分析物种只发布了gff格式的注释文件,则需要进行格式的转换。
染色体核型信息 (-cbd)
对于模式生物而言,基因组分析较多,存在染色体带型信息的,可设置为染色体带型;对于黄瓜这种非模式生物、研究较少的物种,可只提供染色体核型信息,格式如下:
第一列为染色体号,第二列为核型或带型的起始位点,第三例为终止位点,第四列为序列号,第五列为类别信息。
人类染色体的带型数据库文件可从上述提示地址找到,黄瓜染色体的核型文件设置如下:
基因家族数据库文件 (-gf)
人类的基因家族分类信息可从上述地址下载,对于没有基因家族数据库的物种而言,此文件可模拟代替,共分为两列:
- 第一列为基因家族信息
- 第二列为基因ID
可将第一列信息以同一字符代替。
基因组参考序列与基因注释文件中染色体标记的对应关系文件 (-rft)
本文件为两列,需要根据基因组参考序列文件与基因注释文件自己设置,第一列为基因组参考序列文件中的染色体ID,第二列为基因注释文件中的染色体ID,每一行为同一条染色体,需要其一一对应关系。
运行SOAPfuse
在软件目录下存在SOAPfuse-RUN.pl脚本,为软件的运行程序。
$ perl SOAPfuse-RUN.pl -c <config_file> -fd <WHOLE_SEQ-DATA_DIR> -l <sample_list> -o <out_directory> [Options]
- SOAPfuse——融合转录本鉴定软件使用说明
- 取一个转录本
- 提取最长转录本的代码
- SOAPfuse 安装
- 上海珍博文物鉴定中心—科学仪器鉴定原理
- 取转录本fasta最长的当作基因fasta
- 番茄工作法—— pomotime软件使用说明
- 软件促进两化深度融合 ——记2016中国软件和信息技术服务业发展高峰论坛
- 转录组软件安装及分析流程(Hisat2-Stringtie-Ballgown)
- 香港性别鉴定——孕7周香港验血鉴定宝宝男女
- ncbi的genome,gene序列转换和gb2gtf——链特异性转录组
- 转录组数据分析——从前期质量控制到mapping
- 软件以程序员为本————《程序员》
- 试试你的【杀毒】软件----级别鉴定
- 试试你的【杀毒】软件----级别鉴定
- 软件测试技能鉴定(模拟题)
- 软件著作权的鉴定材料提交
- 生信脚本练习(10)找出fasta文件中最长的转录本
- 工厂方法模式(Factory Method)
- ubuntu android环境配置
- 第十一周求两个整数的最大公约数和最小公倍数
- CentOS7上安装php-mcrypt的步骤
- ABAP 行列转换的方法
- SOAPfuse——融合转录本鉴定软件使用说明
- 时间的空隙
- 简单的单列模式
- Android编程_创建和删除文件夹和文件
- java并发编程---synchronized和lock两种锁的比较
- 字符串subString方法的使用
- 简单的滑动冲突处理
- 解决“Dynamic Web Module 3.0 requires Java 1.6 or newer.”错误
- poj Frequent values 3368