BLAST帮助

来源:互联网 发布:恶意锁屏软件下载 编辑:程序博客网 时间:2024/06/01 07:48

 

BLAST相关术语 Alignment: 序列比对。将两个或多个序列排在一起,以达到最大一致性的过程(对于氨基酸序列是比较它们的保守性),这样可以评估序列间的相似性和同源性。 Algorithm: 算法。在计算机程序中包含的一种固定过程。 Bioinformatics: 生物信息学。一门结合生物技术和信息技术从而揭示生物学中新原理的科学。 Bit score: 二进制。二进制值S'源于统计性质被数量化的打分系统中产生的原始比对分数S。由于二进制值相对于打分系统已经被标准化,它们常用于比较不同搜索之间的比对分数。 BLAST: 基 本的局部相似性比对搜索工具。在序列数据库中快速查找与给定序列具有最优局部对准结果的序列的一种序列比对算法。初步搜索是对打分至少为T、长度为W的词 进行的。打分的过程是用一个替代矩阵对查询序列和该词作比较。然后词长可以试着向两端伸长以获得一个超过阈值S的打分。参数T反映了搜索的速度大小和敏感 性。可以参见BLAST的用户指南和BLAST使用指导来获得更详细的信息。 BLOSUM: 模 块替换矩阵。在替换矩阵中,每个位置的打分是在相关蛋白局部比对模块中观察到的替换的频率而获得的。每个矩阵被修改成一个特殊的进化距离。例如,在 BLOSUM62矩阵中,是使用一致性不超过62%的序列进行配对来获得打分值的。一致性大于62%的序列在配对时用单个序列表示,以避免过于强调密切相 关的家族成员。 Conservation: 保守。指氨基酸或DNA(普遍性较小)序列某个特殊位置上的改变,并不影响原始序列的物理化学性质。 Domain: 结构域。蛋白质在折叠时与其他部分相独立的一个不连续的部分,它有着自己独特的功能。 DUST: 一个低复杂性区段过滤程序。 E value: E值。期望值。在一个数据库中所搜索到的打分值等于或大于S的不同比对的个数。E值越低,表明该打分值的显著性越好。 Filtering: 过滤,也叫掩蔽(masking)。指对那么经常产生乱真的高分数的核苷酸或氨基酸序列区域进行隐藏的过程。 Gap: 空位。在两条序列比对过程中需要在检测序列或目标序列中引入空位,以表示插入或删除。为了避免在比对时出现太多的空位,可以在收入空位的同时,从比对的打分值中减去一个固定值(空位值)。在多余的核苷酸或氨基酸周围引入空位时,也要对比对的打分值进行罚分。 Global Alignment: 整体联配。对两个核苷酸或蛋白质序列的全长进行的比对。 H: 相对熵值。目标残基和底物残基频率的相对熵记作H。H可以衡量某个位置(这个位置可以通过概率来区分比对)上由于偶然因素而得到的平均信息(用字节表示)。H值越高,短的比对就越可以通过概率来区分;H值越低,需要的比对长度越长。 Homology: 同源性。由共同的祖先所遗传得到的相似性。 HSP: High-scoring segment pair,高打分值片段。在一个给定的搜索中,没有空位的局部比对能得到最高的比对打分值。 Identity: 一致性。两个(核苷酸或氨基酸)序列比对时不变部分的长度。 K: K值。用来计算BLAST程序中打分函数的一个统计参数。它可以看作搜索空间大小的一个自然衡量尺度。K值通常用于将原始比对值S转换为二进制值S'。 Lambda: λ值。用来计算BLAST程序中打分函数的一个统计参数;它可以看作打分系统的一个自然衡量尺度。λ值通常用于将原始比对值S转换为二进制值S'。 Local Alignment: 局部联配。对两个核苷酸或蛋白质序列的一部分所进行的比对。 Low Complexity Region(LCR): 低复杂性区域。指组分(包括均聚物、短周期重复片段)区域和有许多单个或多个残基的区域。SEG程序用来筛选或过滤氨基酸序列中低复杂性区域。DUST程序用来筛选或过滤核苷酸序列中的低复杂性区域。 Masking: 掩蔽。也叫过滤(filtering),指为了提高对序列相似性搜索是时的敏感性,而从序列中移除重复的或低复杂性区域的过程。 Motif: 模体或序列模式。蛋白质序列中短的保守区域。它们是结构域中保守性很高的部分。 Multiple Sequence Alignment: 多序列比对。三个或三个以上的多个序列之间的比对,如果序列在同一列有相同结构位置的残基和(或)祖传的残基,则会在该位置插入空位。ClustalW是一种最为广泛使用的多序列比对程序之一。 Optimal alignment: 最佳联配。两个序列之间有最高打分值的排列。 Orthologous: 直系同源。指不同种类的同源序列,它们是在物种形成事件中从一个祖先序列独立进化形成的;可能有相似功能,也可能没有。 P value: P 值。在比对时,获得某个打分值或更高的打分值的可能性。通过数据库中具有相同长度或组分的随机序列之间的比对,可以得到高打分值的片段的预期分布,将它与 观察到的比对打分值S相连,就可以计算出P值。显著性最高的P值应该接近于零。P值和E值用不同的方法来表示比对的显著性。 PAM: Percent Accepted Mutation,可接受点突变。一个用于衡量蛋白质序列的进化突变程度的单位。一个PAM的进化距离表示蛋白质序列中平均1%的氨基酸残基发生突变的概 率。PAM(x)替换矩阵是一个查找表,其中每个氨基酸残基的替换打分值是基于进化趋异程度为x的紧密相关蛋白的替换频率而计算的。 Paralogous: 共生同源。指在单个种类中由于基因复制事件而产生的同源序列。 Profile: 表达谱。一种罗列了蛋白质序列的每个位置上每个氨基酸出现频率的表格。这些频率是通过包含指定结构域的序列进行多次比对而得到的。参见PSSM。 Proteomics: 蛋白质组学。对某个生物体中正常或生病组织的蛋白质表达进行系统的分析,包括对所有蛋白的分离、鉴定和特征化。 PSI-BLAST: 特定位点迭代BLAST程序。使用BLAST算法进行迭代搜索。初始搜索产生的表达谱会在接下来的搜索中使用。这个过程会根据需要而一直重复,在每个循环中产生的新序列会用来重新定义表达谱。 PSSM: Position-specific scoring matrix,特定位点记分矩阵。PSSM给出了在目标序列中寻找特定的相配对的氨基酸的对数比分值。参见Profile。 Query: 检测。输入序列(或其他搜索项)与数据库中的所有条目进行的比较。 Raw Score: 初 值。指通过计算替换和空位所得打分值之和而得到的联配值S。替换打分值以查找表的形式表示。空位打分值是通过计算空位开放罚分G和空位拓展罚分L求和而得 到的。对于长度为n的空位,空位罚分值是G+Ln。空位罚分G与L的选择完全是根据经验,通常G选择一个较高的数值(10~15),L选择一个较低的数值 (1~2)。参见PAM、BLOSUM。 Similarity: 相似性。指核苷酸或蛋白质序列的相关程度。两个序列之间的相似性是基于相同和(或)保守序列所占的百分比的。在BLAST中,相似性指一个正定的打分值矩阵。 SEG: 一种过滤氨基酸序列中低复杂性区域的程序,在比较中被过滤掉的氨基酸用“X”表示。在BLAST2.0的blastp子程序中,SEG过滤是默认执行的。 Substitution: 替换。在指定的位置不相同的氨基酸进行联配。如果联配的残基有相似的物理化学性质,那么替换是保守的。 Substitution Matrix: 替换矩阵。替换矩阵中的值与氨基酸对中的第i个氨基酸突变为第j个氨基酸的概率成比例。构建这样的矩阵需要组装一个大的、含有不同的成对排列的氨基酸样本。如果样本足够大,其统计性显著,那么得到的替换矩阵可以反映经过某一阶段进化后的突变概率的真实值。 Unitary Matrix: 酉矩阵,幺正矩阵。也称为单位矩阵。是一个只有在字符相同时才能得到正打分值的打分系统。 blastn: 用来将一个核酸的查询序列与一个核酸序列数据库相比较。 blastp: 将一个氨基酸的查询序列与一个蛋白质序列数据库相比较。 blastx: 将一个核酸的查询序列按所有可能的阅读框翻译后的序列与一个蛋白质序列数据库进行比较。 tblastn: 将一个蛋白质查询序列与一个以所有阅读框动态翻译成蛋白质的核酸序列数据库进行比较。 tblastx: 将一个核酸查询序列的6种框架和翻译结果与一个核酸序列数据库的6种框架翻译产物进行比较。 Filter: 过滤器。过滤掉查询序列中具有较低复杂度的掩盖部分(或者具有很大偏差的成分)。对于蛋白质查询序列,使用SEG程序进行过滤;对于核酸查询序列则使用DUST程序。 FASTA: (a)FASTA 是第一个被广泛使用的数据库相似性搜索算法。这个程序通过扫描序列中的“词”的小配对,从而寻找最优局部比对。首先计算有多个序列的片段的分值(记为 init1);接着这些分值加在一起产生“initn”值;最后输出包含间隔的最佳比对(记为opt)。搜索的敏感性和速度同“词”的长度——“k- tup”变量所控制,并且二者负相关。(b)核苷酸或蛋白质序列的一种输出格式。 Subsequence; 用来设定查询序列中进行比对的子序列。 Descriptions: 对核苷酸或者蛋白质序列的描述。 Alignments: 比对结果。 Query Number: 查询序列的个数。 Job ID: 是在进行BLAST比对的过程中程序自动生成的流水号,用来唯一标识一次比对过程。利用Job ID可以快速找回你曾经进行过的比对结果。 Query ID: 查询序列的ID。 Subject ID: 与查询序列比对的序列的ID。 Length: 比对序列的长度。 Identities: 一致性。指两个(核苷酸或氨基酸)序列比对时不变部分的长度。 Q.start: 查询序列的起始位置。 Q.end: 查询序列的终止位置。 Q.Length: 查询序列的长度。 S.start: 与查询序列相比对的序列的起始位置。 S.end: 与查询序列相比对的序列的终止位置。 S.Length: 与查询序列相比对的序列的长度。

top↑

常见问题

什么是BLAST,由来?

BLAST(Basic Local Alignment Search Tool)基本的局部相似性比对搜索工具。是用来将一个蛋白质或DNA序列和各种数据库中的其他序列进行比对的主要工具 (Altschul,1990,1997)。BLAST搜索是研究一个蛋白质或基因的最基本的方法之一。这种搜索告诉我们哪些相关的序列在同一物种或其他 物种中出现。

BLAST的主要功能包括以下几种:
1)确定特定的蛋白质或核酸序列有哪些已知的直系同源或旁系同源序列。
2)确定哪些蛋白质和基因在特定的物种中出现。
3)确定一个DNA或蛋白质序列身份。
4)发现新基因。
5)确定一个特定基因或者蛋白质有哪些已经被发现了的变种。
6)研究可能存在多种剪接方式的表达序列标签。
7)寻找对于一个蛋白质的功能和/或结构起关键作用的氨基酸残基。
BLAST 检索第一次被提出是在Stephen Altschul,David Lipman及同事的一篇经典文献(1990)中。这篇论文描述了BLAST检索的理论基础以及一些基本问题,例如灵敏度(正确度)和速度。晚些时候有对 BLAST算法的重要修饰,包括间隔BLAST的引入(Altschul等,1997)。

我应该选择NCBI的BLAST还是LSBI的BLAST,他们的区别?

LSBI的数据库中有数据和NCBI的数据库中的数据基本上是同步的,不过NCBI里BLAST能够选择的数据库目前要比我们的多些,但我们正在努力构建其他的数据库,相信不久的将来,我们会拥有NCBI中所有的数据库并拥有一批自己特色的数据库。

LSBI的BLAST有哪些模块,如何选择这些模块?

LSBI主要拥有五个模块,使用时直接在BLAST的主页点击相应的子程序即可,这五个模块分别为下:

程序 查询 搜索数据库的个数 数据库 blastp 蛋白质 1 蛋白质 使用blastp来将一个蛋白质查询序列与一个蛋白质数据库进行比较。 blastn DNA 1 DNA 使用blastn来将一个DNA查询序列的两条链与一个DNA数据库进行比较。 blastx DNA 6 蛋白质 使用blastx来将一个DNA序列用所有可能的阅读框翻译成6个蛋白质序列,然后将它们逐一与蛋白质数据库进行比较。 tblastn 蛋白质 6 DNA 使用tblastn来将一个DNA数据库中的每一条序列翻译成6种可能的蛋白质,然后将你要查询的蛋白质序列与翻译的蛋白质逐一进行比较。 tblastx DNA 36 DNA 使用tblastx将查询DNA以及数据库中的DNA都翻译成6种可能的蛋白质,然后进行36次蛋白质-蛋白质数据库搜索。

表1:5个BLAST子程序

注:后缀p表示蛋白质(如在blastp);n表示核苷酸,x表示一个DNA查询被动态的翻译成6种蛋白质序列。前缀t表示“翻译(translating)”,也就是将一个DNA数据库动态地翻译成6种蛋白质。

做一个BLAST比对有那些流程?

进行任何的BLAST比对都包含以下4个步骤:
1)选择你所感兴趣的序列,将它粘贴到BLAST的输入框中。
2)选择一个BLAST程序(blastp, blastn, blastx, tblastx, tblastn)。
3)选择一个用于搜索的数据库。
4)为搜索和输出格式选择可选参数。这些选项包括选择替换矩阵,过滤复杂度低的序列,以及将搜索范围限制在某些特定的物种中。 详细请见“BLAST使用说明”。

BLAST的数据来源,经常更新吗?

对于已经完成全基因组测序的物种数据一般是不会更新的,如果你BLAST中选择了目前正在测序的物种,随着测序工作的完成,你的BLAST结果很有可能因更新而略有不同。

如何读BLAST结果?

请参考“使用说明”中的“BLAST结果说明”。

如何下载、找回我的比对结果?

点击比对结果页面上的“download”即可进行下载,而利用Job ID则可以在BLAST左侧的“近期结果”中找回曾经比对过的结果。

如果我的数据量非常大,LSBI能实现我的比对吗?

可以。

LSBI有那些数据库?

目前我们的数据库已经包含了以下数据库,并且数量还在不断增加中:

Name Content Description Update pdbnt pdb核酸数据库 03-18-2008 htgs 高通量基因组序列数据库 03-18-2008 est_others 除去人和老鼠的其它物种的est序列数据库 03-18-2008 other_genomic 除了人类的其它物种的基因组数序列据库 03-18-2008 env_nt 环境样品核酸序列数据库 03-18-2008 month.aa 30天内发布或更新的蛋白质数据库 03-18-2008 swissprot swissprot数据库 03-18-2008 pataa 专利蛋白质数据库 03-18-2008 nt 非冗余核酸数据库 03-18-2008 patnt 专利核酸的数据库 03-18-2008 pdbaa pdb蛋白质数据库 03-18-2008 igSeqNt 免疫球蛋白核酸序列数据库 03-18-2008 sts 序列标签位点数据库 03-18-2008 igSeqProt 免疫球蛋白蛋白序列数据库 03-18-2008 month.gss 30天内发布或更新的gss数据库 03-18-2008 month.htgs 30天内发布或更新的htgs数据库 03-18-2008 month.nt 30天内发布或更新的nt数据库 03-18-2008 month.est_others 30天内发布或更新的est_others数据库 03-18-2008 nr 非冗余蛋白质数据库 03-06-2008 mito.nt 线粒体核酸数据库 12-29-2007 alu.n alu重复序列数据库 12-29-2007 alu.a alu.n翻译的蛋白质数据库 12-29-2007 mito.aa 线粒体蛋白数据库 12-29-2007 vector genbank中人工改造的载体数据库 12-29-2007 UniVec 非冗余载体序列数据库 12-29-2007

我能建立自己的数据库吗?

可以。如果你已经在我们的网站注册过,那么你就可以上传你的数据,并在“我的账户”——“我的数据”对你上传的数据进行管理和使用。详细过程请参见:“我的账户”——“简介”。

什么是Job id,有什么用?

Job id是你在进行BLAST的过程中由我们的程序自动生成的流水作业号,在“我的账户”——“近期结果”里你可以搜索你拥有的Job id,从而快速取回你曾经BLAST过的结果。对于未注册的用户,由于BLAST的运行结果只可以通过Job id搜索,请务必记录系统生成的Job id。

我任务标题有什么作用?

任务标题是对Blast任务的简要注释。为了保护个人隐私,在近期结果中不提供关于任务标题的搜索。

我要做批量的分析,应该保存什么样的格式?

FASTA格式。

使用BLAST需要注册登录吗?

不 需要。但如果你需要使用我们更多的功能,则我们建议你注册并登录我们的网站。当你拥有我们网站的账户并登录后,你就可以使用“BLAST”中的“自助数据 库比对”,利用“My Blast”你可以将你需要比对的序列上传到我们的服务器上进行比对,并且你还可以将结果在我们的服务器上长期保留。

为什么我的比对等待很长时间还没有结果?

比 对时间过长可能是由以下两个原 因造成的:一是你选择的比对数据库过于庞大,或者你进行的是批量比对,需要的计算量太大,二是你进行比对的时间正处于我们的服务器繁忙时间。为此我们建议 你考虑以下方法来减少你的比对等待时间:一是尽量精确你需要比对的数据库范围,二是错开我们的服务器运行高峰时间段。

top↑

使用说明

BLAST模块说明

LSBI的模块位于BLAST主页的左侧,用户可以通过点击相应的模块来使用,模块分布如下:

1)常用数据库比对

是最常用的BLAST工具,包含了nucleotide blast、protein blast、blastx、tblastn和tblastx五种,使用说明请见本文档的BLAST的操作流程部分。

2)物种基因组比对

提供了数十种常用物种的基因组比对快速链接,用户点击相应的物种名即可直接进行相应物种的基因组比对。使用方法与“常用数据库比对”中相同。

3)其他比对

提供了两个特殊的比对工具:
Screen sequence for vector contamination (vecscreen)
Align two sequences using BLAST (bl2seq)

4)自助数据库比对

使用自助数据库比对需要先在LSBI上注册一个账号,然后才能使用“My Blast”。
使用“自助数据库比对”用户可以上传自己的序列数据,并把它们格式化为可搜索的数据库,然后进行序列的比对。
首先,点击“序列”,上传自己的序列数据,并“格式化为可搜索的数据库”。

返回到“My Blast”主页,点击“比对”,进入自助比对页面:
`

与其它BLAST相比,My Blast多了一个“自有数据库”选项,即用户自己上传构建的数据库。
返回到“My Blast”主页,点击“结果”,查看比对的结果。

5)近期结果
在近期结果里输入已进行过的“Job ID”,点击查看以前任务的比对结果。

6)数据库说明
LSBI目前可以使用的比对数据库说明及更新情况。

top↑

BLAST参数设置说明

BLAST的参数可以分为如下3种:
1)必须参数:
-p:BLAST五个子程序中的一个("blastp", "blastn", "blastx", "tblastn", or "tblastx")
-d:进行比对时用到的数据库。
-i:用来查询的序列。可以是一个accession,gi或者一个FASTA格式的序列文件。

-p -i -d blastn 核酸 核酸 blastp 蛋白质 蛋白质 blaxtx 核酸 蛋白质 tblastn 蛋白质 核酸 tblastx 核酸 核酸

表-p参数与-i, -d参数的对应关系

2)比对优化参数
-e:期望值,默认为10.
-F:是否过滤序列。可选项。blastn使用DUST,其他使用SEG。
-L:查询序列的位置。可选项。两个数值,用”,”分开,例如:-L 45,890。

3)显示格式设置  
-m:比对结果显示选项。可以是如下值:
0 = pairwise,
1 = query-anchored showing identities,
2 = query-anchored no identities,
3 = flat query-anchored, show identities,
4 = flat query-anchored, no identities,
5 = query-anchored no identities and blunt ends,
6 = flat query-anchored, no identities and blunt ends,
7 = XML Blast output,
8 = tabular,
9 = tabular with comment lines
10 = ASN, text
11 =ASN, binary [Integer]
default = 0
range from 0 to 11
-v:显示匹配序列数目。默认是250。   
-b:显示比对排列数目。默认是250。

top↑

BLAST结果说明

当提交一个任务后,网页会跳转到Blast运行页面,如下图:

Blast运行页面显示的字段说明如下:
Job ID:提交Blast时产生的流水工作号,可以用于以后找回Blast的结果。
Submitted at:提交任务时间。
Status:Blast工作的状态,“Searching”表示工作仍在运行中,“Done”表示工作已经结束,可以查看结果了。
Title:在提交任务时用户对此次Blast任务的命名。默认为空。
Program:提交任务时选择的五个Blast子程序中的一个。
Database:Blast比对的目标数据库。
Query Number:查询的条目数。
Expires at:预期任务结束时间。

当Blast运行结束后,页面变为选择结果显示页面,如下:

此 时在运行显示信息列表的下面多出了两个选择下拉框,“Show results”可以选择结果显示的格式,有两种可以选择,分别为“Pairwise results”和“Hit Table”。“Download”可以按选择的格式进行下载,同时有“Pairwise results”和“Hit Table”两种。

示例:Job ID:LSBI1208229443745OFS

1)在“Show results”中选择“Pairwise”显示格式,页面自动跳转到“Pairwise results”显示页面:

“Pairwise”格式显示信息有两部分组成:

第一部分是对此次工作的描述性信息,首先是BLAST的名称与版本,以及参考信息。其次是Job ID,并提供了下载本结果文档按钮。接着是比对目标数据库的信息,包括目标数据库的名字、序列条数和字数。最后是用于比对的序列的信息。

第 二部分是序列比对的结果显示。显示的字项有Accession、Description、Max score 、Total score、Query coverage、E value和Max ident。其中Accession指序列的AC号,Description是对序列的简要描述性信息,Max score 、Total score、Query coverage、E value和Max ident是序列比对结果的评价性信息,序列结果的排列默认由Max score由高到低排列。

在比对结果列表的下文有三个按钮,分别为“Get selected sequences”、“Select all”和“Deselect all”,分别用于获取选定的序列、全选序列与全反选序列。

2)在“Show results”中选择“Hit table”, 页面自动跳转到“Hit table”显示页面:

Hit table显示格式的第一部分与Pairwise results的第一部分一样,都是对此次工作的描述性信息。第二部分为序列比对的详细信息。

Hit table的序列比对信息主要有以下几项:
Query ID:用于比对的序列号,即用于查询的第几条序列,如果只有一条,则为Query 1。
Subject ID:目标序列的标识号。
Description:比对目标序列的简要描述。
Alignment Length:比对目标序列的长度
Score:比对得分
E-value:E值。
Identity:匹配率。
Mismatches:错配率。
Gap:空位数。

Hit order:
Q.start:查询序列的开始位点。
Q.end:查询序列的结束位点。
Q.Length:查询序列的长度。
S.start:比对目标序列的开始位点。
S.end:比对目标序列的结束位点。
S.Length:比对目标序列的长度。
Job ID:LSBI1208229443745OFS

top↑

BLAST的操作流程

一般的BLAST操作流程有以下几个步骤:
1)在LSBI的首页点击“在线服务”——“Blast”,进入BLAST的首页。

2)根据需要选择五个BLAST子程序中的一个,如选择第一个“nucleotide blast”,点击进入其配置页面:

3)添加并配置BLAST参数,通常为以下几个:
在“输入序列”文本框中输入FASTA格式的核酸序列,或者从文件导入含有核酸序列的FASTA格式文件。
在“设置序列范围(可选)”里可以指定序列需要比对的开始位点和结束位点。
在“任务标题”里用户可以根据需要填写此次任务的标题,也可以为空。
在“数据库”下拉列表中选择要使用的数据库,不同的BLAST子程序能够使用不用的数据库,数据库的说明请参考“常见问题”——LSBI有那些数据库?
在“程序”决定所使用的程序。
决定是否使用“过滤”。
“设置其他参数”:包括期望值、描述、期望命中数以及更多参数。更多参数见本文档“BLAST参数设置说明”。
点击“查询”按钮提交任务,或“重填”按钮重新配置参数。

4)提交任务后,页面跳转到BLAST运行页面,稍等片刻,运行结束,进入结果显示格式选择与下载页面:

在页面中选择“Pairwise results”或者“Hit table”格式进行结果显示或下载。

 

 

源出处:http://lifecenter.sgst.cn/blast/cn/blastHelp.do