SOAPfuse——融合转录本鉴定软件使用说明

来源：互联网发布：sqlserver配置要求编辑：程序博客网时间：2024/06/06 01:03

SOAPfuse：利用双末端RNA-Seq数据鉴定融合转录本

SOAPfuse是华大开发的从 paired-end RNA-Seq 数据全基因组范围内探测融合转录本的开放性工具，其以perl语言为基础，应用一种改进的部分穷举法，构建一个用于探测融合事件的数据库，通过层层过滤，来鉴定融合转录本，以方便对人类RNA-Seq数据的分析。通过对数据库的合理构建，SOAPfuse也能用于其他物种RNA-Seq数据的分析。相比于目前开发出来的其他20个用于探测融合转录本的工具，SOAPfuse有以下优点：

检测效率高
节省计算资源
精细过滤
高效检测融合转录本
融合断点预测
结果可视化

软件本身是为人类RNA-Seq数据分析所用，但在我的研究中想将其用于黄瓜(Cucumis sativus L.)转录组的分析，故本文中将以人类及黄瓜两个物种对SOAPfuse的使用进行介绍。

安装

目前SOAPfuse软件已经更新到1.27版本，软件的下载地址可以从官网 SOAP :: Short Oligonucleotide Analysis Package找到，或者直接点击SOAPfse Download下载。

SOAPfuse软件只能在64位的Linux系统下操作，并需要至少5.8.5版本的Perl支持。

下载完成后，直接在Linux系统终端下解压缩即可，
$ tar -xzf /PATH_WHERE_YOU_PUT_THE_TARBALL/SOAPfuse-vX.X.tar.gz
$ cd /PATH_WHERE_YOU_PUT_THE_TARBALL/SOAPfuse-vX.X/

运行准备

由于SOAPfuse特殊的比对与过滤方法，在正式运行软件进行融合转录本的探测前，需要准备如下文件：

RNA-Seq数据集
样本列表 (sample list)
配置文件
构建数据库所需文件
- 基因组参考序列
- 基因组注释文件（gtf格式）
- 染色体核型信息
- 基因家族注释文件
- 基因组参考序列与基因组注释文件中染色体标记的对应关系

RNA-Seq数据集

高通量测序后得到的转录本信息，为fastq格式。由于SOAPfuse识别融合转录本的功能只针对双末端RNA-Seq后的数据，所以RNA-Seq数据集的结构如下：
RNA-Seq.directory.structure.for.SOAPfuse
其中：
- 第一层为全部RNA-Seq数据所在文件夹；
- 第二层为不同样本的RNA-Seq数据，文件夹名为样本ID；
- 第三层为测序时构建的不同文库，若只有一个文库信息，则不作区分，但此层目录必须存在；
- 最后一层为对同一样本、同一文库的RNA-Seq双末端数据进行的不同运行，可以有参数上的差异，同一次运行需要两个fastq文件，不需解压缩。

由于SOAPfuse软件运行的标准化，RNA-Seq数据必须以上述文件目录结构存于总测序信息目录下。

样本列表

SOAPfuse的运行需要一个样本列表文件，存储所需运行的RNA-Seq数据信息，其主要格式如下：

1 2 3 4 [sample_ID] [sequence_library_ID] [run_ID] [read_length]

样本列表共四列，其中第一列为样本ID，第二列为序列文库ID，第三列为运行ID，最后一列为双末端测序读长信息，其内容需要与上述RNA-Seq数据目录结构一致。

同一样本测序结果存于一个样本列表中，各个样本列表并行处理。但当对癌症转录本进行分析时，同一病人的正常组织与癌变组织的RNA-Seq数据可存于同一样本列表中，以便对照分析。

配置文件

SOAPfuse的运行需要引用一个配置文件，查看方式如下：

$ cd /PATH_WHERE_YOU_PUT_THE_PACKAGE/SOAPfuse-vX.X/config/
$ less -S config.txt

配置文件的内容很容易理解，主要以 变量=值 的方式进行修改。

配置文件中一些缩写信息需要注意：
- ‘DB’– DataBase，数据库信息
- ‘PG’– ProGrams，程序信息
- ‘PS’– Pipeline Steps，管道运行步骤信息
- ‘PD’– Pipeline Directories，管道目录信息
- ‘PA’– PArameters，参数信息

以下几个参数为必须修改项，需留意：
1. 设置数据库所在目录
DB_db_dir = /DATABASE_DIR/
2. 设置程序运行脚本所在目录
PG_pg_dir = /TOOL_DIR/source/bin
3. 设置管道目录
PS_ps_dir = /TOOL_DIR/source
4. 设置输出目录
PD_all_out = /out_directory/
5. 设置RNA-Seq数据文件后缀
PA_all_fq_postfix = PostFix

数据库构建

对数据库的构建是运行SOAPfuse最为关键的一步，需要五个必需文件。软件作者对于构建数据库的介绍为Construct_SOAPfuse_database

$ cd /PATH_WHERE_YOU_PUT_THE_PACKAGE/SOAPfuse-vX.X/source/$ perl SOAPfuse-S00-Generate_SOAPfuse_database.pl -h$ perl SOAPfuse-S00-Generate_SOAPfuse_database.pl <Options>

全基因组参考序列 (-wg)

从NCBI、Ensembel或者各物种基因组数据库中下载基因组参考序列的fasta格式文件，注意该版本参考序列中各染色体标签的格式，在后面会用到。

基因注释文件 (gtf)

SOAPfuse只识别gtf格式的基因注释文件，如果所分析物种只发布了gff格式的注释文件，则需要进行格式的转换。

染色体核型信息 (-cbd)

对于模式生物而言，基因组分析较多，存在染色体带型信息的，可设置为染色体带型；对于黄瓜这种非模式生物、研究较少的物种，可只提供染色体核型信息，格式如下：

1 2 3 4 5 Chrom Start position End position ID Class

第一列为染色体号，第二列为核型或带型的起始位点，第三例为终止位点，第四列为序列号，第五列为类别信息。

人类染色体的带型数据库文件可从上述提示地址找到，黄瓜染色体的核型文件设置如下：

基因家族数据库文件 (-gf)

人类的基因家族分类信息可从上述地址下载，对于没有基因家族数据库的物种而言，此文件可模拟代替，共分为两列：
- 第一列为基因家族信息
- 第二列为基因ID
可将第一列信息以同一字符代替。

基因组参考序列与基因注释文件中染色体标记的对应关系文件 (-rft)

本文件为两列，需要根据基因组参考序列文件与基因注释文件自己设置，第一列为基因组参考序列文件中的染色体ID，第二列为基因注释文件中的染色体ID，每一行为同一条染色体，需要其一一对应关系。

运行SOAPfuse

在软件目录下存在SOAPfuse-RUN.pl脚本，为软件的运行程序。

$ perl SOAPfuse-RUN.pl -c <config_file> -fd <WHOLE_SEQ-DATA_DIR> -l <sample_list> -o <out_directory> [Options]

0 0