SOAPfuse——融合转录本鉴定软件使用说明

来源:互联网 发布:sqlserver配置要求 编辑:程序博客网 时间:2024/06/06 01:03

SOAPfuse:利用双末端RNA-Seq数据鉴定融合转录本

SOAPfuse是华大开发的从 paired-end RNA-Seq 数据全基因组范围内探测融合转录本的开放性工具,其以perl语言为基础,应用一种改进的部分穷举法,构建一个用于探测融合事件的数据库,通过层层过滤,来鉴定融合转录本,以方便对人类RNA-Seq数据的分析。通过对数据库的合理构建,SOAPfuse也能用于其他物种RNA-Seq数据的分析。相比于目前开发出来的其他20个用于探测融合转录本的工具,SOAPfuse有以下优点:

  • 检测效率高
  • 节省计算资源
  • 精细过滤
  • 高效检测融合转录本
  • 融合断点预测
  • 结果可视化

软件本身是为人类RNA-Seq数据分析所用,但在我的研究中想将其用于黄瓜(Cucumis sativus L.)转录组的分析,故本文中将以人类及黄瓜两个物种对SOAPfuse的使用进行介绍。


安装

目前SOAPfuse软件已经更新到1.27版本,软件的下载地址可以从官网 SOAP :: Short Oligonucleotide Analysis Package找到,或者直接点击SOAPfse Download下载。

SOAPfuse软件只能在64位的Linux系统下操作,并需要至少5.8.5版本的Perl支持。

下载完成后,直接在Linux系统终端下解压缩即可,
$ tar -xzf /PATH_WHERE_YOU_PUT_THE_TARBALL/SOAPfuse-vX.X.tar.gz
$ cd /PATH_WHERE_YOU_PUT_THE_TARBALL/SOAPfuse-vX.X/

运行准备

由于SOAPfuse特殊的比对与过滤方法,在正式运行软件进行融合转录本的探测前,需要准备如下文件:

  • RNA-Seq数据集
  • 样本列表 (sample list)
  • 配置文件
  • 构建数据库所需文件
    • 基因组参考序列
    • 基因组注释文件(gtf格式)
    • 染色体核型信息
    • 基因家族注释文件
    • 基因组参考序列与基因组注释文件中染色体标记的对应关系

RNA-Seq数据集

高通量测序后得到的转录本信息,为fastq格式。由于SOAPfuse识别融合转录本的功能只针对双末端RNA-Seq后的数据,所以RNA-Seq数据集的结构如下:
RNA-Seq.directory.structure.for.SOAPfuse
其中:
- 第一层为全部RNA-Seq数据所在文件夹;
- 第二层为不同样本的RNA-Seq数据,文件夹名为样本ID;
- 第三层为测序时构建的不同文库,若只有一个文库信息,则不作区分,但此层目录必须存在;
- 最后一层为对同一样本、同一文库的RNA-Seq双末端数据进行的不同运行,可以有参数上的差异,同一次运行需要两个fastq文件,不需解压缩。

由于SOAPfuse软件运行的标准化,RNA-Seq数据必须以上述文件目录结构存于总测序信息目录下。

样本列表

SOAPfuse的运行需要一个样本列表文件,存储所需运行的RNA-Seq数据信息,其主要格式如下:

1 2 3 4 [sample_ID] [sequence_library_ID] [run_ID] [read_length]

样本列表共四列,其中第一列为样本ID,第二列为序列文库ID,第三列为运行ID,最后一列为双末端测序读长信息,其内容需要与上述RNA-Seq数据目录结构一致。

同一样本测序结果存于一个样本列表中,各个样本列表并行处理。但当对癌症转录本进行分析时,同一病人的正常组织与癌变组织的RNA-Seq数据可存于同一样本列表中,以便对照分析。

配置文件

SOAPfuse的运行需要引用一个配置文件,查看方式如下:

$ cd /PATH_WHERE_YOU_PUT_THE_PACKAGE/SOAPfuse-vX.X/config/
$ less -S config.txt

配置文件的内容很容易理解,主要以 变量=值 的方式进行修改。

配置文件中一些缩写信息需要注意:
- ‘DB’– DataBase,数据库信息
- ‘PG’– ProGrams,程序信息
- ‘PS’– Pipeline Steps,管道运行步骤信息
- ‘PD’– Pipeline Directories,管道目录信息
- ‘PA’– PArameters,参数信息

以下几个参数为必须修改项,需留意:
1. 设置数据库所在目录
DB_db_dir = /DATABASE_DIR/
2. 设置程序运行脚本所在目录
PG_pg_dir = /TOOL_DIR/source/bin
3. 设置管道目录
PS_ps_dir = /TOOL_DIR/source
4. 设置输出目录
PD_all_out = /out_directory/
5. 设置RNA-Seq数据文件后缀
PA_all_fq_postfix = PostFix

数据库构建

对数据库的构建是运行SOAPfuse最为关键的一步,需要五个必需文件。软件作者对于构建数据库的介绍为Construct_SOAPfuse_database

$ cd /PATH_WHERE_YOU_PUT_THE_PACKAGE/SOAPfuse-vX.X/source/$ perl SOAPfuse-S00-Generate_SOAPfuse_database.pl -h$ perl SOAPfuse-S00-Generate_SOAPfuse_database.pl <Options>

全基因组参考序列 (-wg)

从NCBI、Ensembel或者各物种基因组数据库中下载基因组参考序列的fasta格式文件,注意该版本参考序列中各染色体标签的格式,在后面会用到。

基因注释文件 (gtf)

SOAPfuse只识别gtf格式的基因注释文件,如果所分析物种只发布了gff格式的注释文件,则需要进行格式的转换。

染色体核型信息 (-cbd)

对于模式生物而言,基因组分析较多,存在染色体带型信息的,可设置为染色体带型;对于黄瓜这种非模式生物、研究较少的物种,可只提供染色体核型信息,格式如下:

1 2 3 4 5 Chrom Start position End position ID Class

第一列为染色体号,第二列为核型或带型的起始位点,第三例为终止位点,第四列为序列号,第五列为类别信息。

人类染色体的带型数据库文件可从上述提示地址找到,黄瓜染色体的核型文件设置如下:

基因家族数据库文件 (-gf)

人类的基因家族分类信息可从上述地址下载,对于没有基因家族数据库的物种而言,此文件可模拟代替,共分为两列:
- 第一列为基因家族信息
- 第二列为基因ID
可将第一列信息以同一字符代替。

基因组参考序列与基因注释文件中染色体标记的对应关系文件 (-rft)

本文件为两列,需要根据基因组参考序列文件与基因注释文件自己设置,第一列为基因组参考序列文件中的染色体ID,第二列为基因注释文件中的染色体ID,每一行为同一条染色体,需要其一一对应关系。

运行SOAPfuse

在软件目录下存在SOAPfuse-RUN.pl脚本,为软件的运行程序。

$ perl SOAPfuse-RUN.pl -c <config_file> -fd <WHOLE_SEQ-DATA_DIR> -l <sample_list> -o <out_directory> [Options]
0 0