BLAST帮助
来源:互联网 发布:恶意锁屏软件下载 编辑:程序博客网 时间:2024/06/01 07:48
top↑
常见问题什么是BLAST,由来?
BLAST(Basic Local Alignment Search Tool)基本的局部相似性比对搜索工具。是用来将一个蛋白质或DNA序列和各种数据库中的其他序列进行比对的主要工具 (Altschul,1990,1997)。BLAST搜索是研究一个蛋白质或基因的最基本的方法之一。这种搜索告诉我们哪些相关的序列在同一物种或其他 物种中出现。
BLAST的主要功能包括以下几种:
1)确定特定的蛋白质或核酸序列有哪些已知的直系同源或旁系同源序列。
2)确定哪些蛋白质和基因在特定的物种中出现。
3)确定一个DNA或蛋白质序列身份。
4)发现新基因。
5)确定一个特定基因或者蛋白质有哪些已经被发现了的变种。
6)研究可能存在多种剪接方式的表达序列标签。
7)寻找对于一个蛋白质的功能和/或结构起关键作用的氨基酸残基。
BLAST 检索第一次被提出是在Stephen Altschul,David Lipman及同事的一篇经典文献(1990)中。这篇论文描述了BLAST检索的理论基础以及一些基本问题,例如灵敏度(正确度)和速度。晚些时候有对 BLAST算法的重要修饰,包括间隔BLAST的引入(Altschul等,1997)。
我应该选择NCBI的BLAST还是LSBI的BLAST,他们的区别?
LSBI的数据库中有数据和NCBI的数据库中的数据基本上是同步的,不过NCBI里BLAST能够选择的数据库目前要比我们的多些,但我们正在努力构建其他的数据库,相信不久的将来,我们会拥有NCBI中所有的数据库并拥有一批自己特色的数据库。
LSBI的BLAST有哪些模块,如何选择这些模块?
LSBI主要拥有五个模块,使用时直接在BLAST的主页点击相应的子程序即可,这五个模块分别为下:
程序 查询 搜索数据库的个数 数据库 blastp 蛋白质 1 蛋白质 使用blastp来将一个蛋白质查询序列与一个蛋白质数据库进行比较。 blastn DNA 1 DNA 使用blastn来将一个DNA查询序列的两条链与一个DNA数据库进行比较。 blastx DNA 6 蛋白质 使用blastx来将一个DNA序列用所有可能的阅读框翻译成6个蛋白质序列,然后将它们逐一与蛋白质数据库进行比较。 tblastn 蛋白质 6 DNA 使用tblastn来将一个DNA数据库中的每一条序列翻译成6种可能的蛋白质,然后将你要查询的蛋白质序列与翻译的蛋白质逐一进行比较。 tblastx DNA 36 DNA 使用tblastx将查询DNA以及数据库中的DNA都翻译成6种可能的蛋白质,然后进行36次蛋白质-蛋白质数据库搜索。表1:5个BLAST子程序
注:后缀p表示蛋白质(如在blastp);n表示核苷酸,x表示一个DNA查询被动态的翻译成6种蛋白质序列。前缀t表示“翻译(translating)”,也就是将一个DNA数据库动态地翻译成6种蛋白质。
做一个BLAST比对有那些流程?
进行任何的BLAST比对都包含以下4个步骤:
1)选择你所感兴趣的序列,将它粘贴到BLAST的输入框中。
2)选择一个BLAST程序(blastp, blastn, blastx, tblastx, tblastn)。
3)选择一个用于搜索的数据库。
4)为搜索和输出格式选择可选参数。这些选项包括选择替换矩阵,过滤复杂度低的序列,以及将搜索范围限制在某些特定的物种中。 详细请见“BLAST使用说明”。
BLAST的数据来源,经常更新吗?
对于已经完成全基因组测序的物种数据一般是不会更新的,如果你BLAST中选择了目前正在测序的物种,随着测序工作的完成,你的BLAST结果很有可能因更新而略有不同。
如何读BLAST结果?
请参考“使用说明”中的“BLAST结果说明”。
如何下载、找回我的比对结果?
点击比对结果页面上的“download”即可进行下载,而利用Job ID则可以在BLAST左侧的“近期结果”中找回曾经比对过的结果。
如果我的数据量非常大,LSBI能实现我的比对吗?
可以。
LSBI有那些数据库?
目前我们的数据库已经包含了以下数据库,并且数量还在不断增加中:
Name Content Description Update pdbnt pdb核酸数据库 03-18-2008 htgs 高通量基因组序列数据库 03-18-2008 est_others 除去人和老鼠的其它物种的est序列数据库 03-18-2008 other_genomic 除了人类的其它物种的基因组数序列据库 03-18-2008 env_nt 环境样品核酸序列数据库 03-18-2008 month.aa 30天内发布或更新的蛋白质数据库 03-18-2008 swissprot swissprot数据库 03-18-2008 pataa 专利蛋白质数据库 03-18-2008 nt 非冗余核酸数据库 03-18-2008 patnt 专利核酸的数据库 03-18-2008 pdbaa pdb蛋白质数据库 03-18-2008 igSeqNt 免疫球蛋白核酸序列数据库 03-18-2008 sts 序列标签位点数据库 03-18-2008 igSeqProt 免疫球蛋白蛋白序列数据库 03-18-2008 month.gss 30天内发布或更新的gss数据库 03-18-2008 month.htgs 30天内发布或更新的htgs数据库 03-18-2008 month.nt 30天内发布或更新的nt数据库 03-18-2008 month.est_others 30天内发布或更新的est_others数据库 03-18-2008 nr 非冗余蛋白质数据库 03-06-2008 mito.nt 线粒体核酸数据库 12-29-2007 alu.n alu重复序列数据库 12-29-2007 alu.a alu.n翻译的蛋白质数据库 12-29-2007 mito.aa 线粒体蛋白数据库 12-29-2007 vector genbank中人工改造的载体数据库 12-29-2007 UniVec 非冗余载体序列数据库 12-29-2007我能建立自己的数据库吗?
可以。如果你已经在我们的网站注册过,那么你就可以上传你的数据,并在“我的账户”——“我的数据”对你上传的数据进行管理和使用。详细过程请参见:“我的账户”——“简介”。
什么是Job id,有什么用?
Job id是你在进行BLAST的过程中由我们的程序自动生成的流水作业号,在“我的账户”——“近期结果”里你可以搜索你拥有的Job id,从而快速取回你曾经BLAST过的结果。对于未注册的用户,由于BLAST的运行结果只可以通过Job id搜索,请务必记录系统生成的Job id。
我任务标题有什么作用?
任务标题是对Blast任务的简要注释。为了保护个人隐私,在近期结果中不提供关于任务标题的搜索。
我要做批量的分析,应该保存什么样的格式?
FASTA格式。
使用BLAST需要注册登录吗?
不 需要。但如果你需要使用我们更多的功能,则我们建议你注册并登录我们的网站。当你拥有我们网站的账户并登录后,你就可以使用“BLAST”中的“自助数据 库比对”,利用“My Blast”你可以将你需要比对的序列上传到我们的服务器上进行比对,并且你还可以将结果在我们的服务器上长期保留。
为什么我的比对等待很长时间还没有结果?
比 对时间过长可能是由以下两个原 因造成的:一是你选择的比对数据库过于庞大,或者你进行的是批量比对,需要的计算量太大,二是你进行比对的时间正处于我们的服务器繁忙时间。为此我们建议 你考虑以下方法来减少你的比对等待时间:一是尽量精确你需要比对的数据库范围,二是错开我们的服务器运行高峰时间段。
top↑
使用说明BLAST模块说明LSBI的模块位于BLAST主页的左侧,用户可以通过点击相应的模块来使用,模块分布如下:
1)常用数据库比对
是最常用的BLAST工具,包含了nucleotide blast、protein blast、blastx、tblastn和tblastx五种,使用说明请见本文档的BLAST的操作流程部分。
2)物种基因组比对
提供了数十种常用物种的基因组比对快速链接,用户点击相应的物种名即可直接进行相应物种的基因组比对。使用方法与“常用数据库比对”中相同。
3)其他比对
提供了两个特殊的比对工具:
Screen sequence for vector contamination (vecscreen)
Align two sequences using BLAST (bl2seq)
4)自助数据库比对
使用自助数据库比对需要先在LSBI上注册一个账号,然后才能使用“My Blast”。
使用“自助数据库比对”用户可以上传自己的序列数据,并把它们格式化为可搜索的数据库,然后进行序列的比对。
首先,点击“序列”,上传自己的序列数据,并“格式化为可搜索的数据库”。
返回到“My Blast”主页,点击“比对”,进入自助比对页面:
`
与其它BLAST相比,My Blast多了一个“自有数据库”选项,即用户自己上传构建的数据库。
返回到“My Blast”主页,点击“结果”,查看比对的结果。
5)近期结果
在近期结果里输入已进行过的“Job ID”,点击查看以前任务的比对结果。
6)数据库说明
LSBI目前可以使用的比对数据库说明及更新情况。
top↑
BLAST参数设置说明BLAST的参数可以分为如下3种:
1)必须参数:
-p:BLAST五个子程序中的一个("blastp", "blastn", "blastx", "tblastn", or "tblastx")
-d:进行比对时用到的数据库。
-i:用来查询的序列。可以是一个accession,gi或者一个FASTA格式的序列文件。
表-p参数与-i, -d参数的对应关系
2)比对优化参数
-e:期望值,默认为10.
-F:是否过滤序列。可选项。blastn使用DUST,其他使用SEG。
-L:查询序列的位置。可选项。两个数值,用”,”分开,例如:-L 45,890。
3)显示格式设置
-m:比对结果显示选项。可以是如下值:
0 = pairwise,
1 = query-anchored showing identities,
2 = query-anchored no identities,
3 = flat query-anchored, show identities,
4 = flat query-anchored, no identities,
5 = query-anchored no identities and blunt ends,
6 = flat query-anchored, no identities and blunt ends,
7 = XML Blast output,
8 = tabular,
9 = tabular with comment lines
10 = ASN, text
11 =ASN, binary [Integer]
default = 0
range from 0 to 11
-v:显示匹配序列数目。默认是250。
-b:显示比对排列数目。默认是250。
top↑
BLAST结果说明当提交一个任务后,网页会跳转到Blast运行页面,如下图:
Blast运行页面显示的字段说明如下:
Job ID:提交Blast时产生的流水工作号,可以用于以后找回Blast的结果。
Submitted at:提交任务时间。
Status:Blast工作的状态,“Searching”表示工作仍在运行中,“Done”表示工作已经结束,可以查看结果了。
Title:在提交任务时用户对此次Blast任务的命名。默认为空。
Program:提交任务时选择的五个Blast子程序中的一个。
Database:Blast比对的目标数据库。
Query Number:查询的条目数。
Expires at:预期任务结束时间。
当Blast运行结束后,页面变为选择结果显示页面,如下:
此 时在运行显示信息列表的下面多出了两个选择下拉框,“Show results”可以选择结果显示的格式,有两种可以选择,分别为“Pairwise results”和“Hit Table”。“Download”可以按选择的格式进行下载,同时有“Pairwise results”和“Hit Table”两种。
示例:Job ID:LSBI1208229443745OFS
1)在“Show results”中选择“Pairwise”显示格式,页面自动跳转到“Pairwise results”显示页面:
“Pairwise”格式显示信息有两部分组成:
第一部分是对此次工作的描述性信息,首先是BLAST的名称与版本,以及参考信息。其次是Job ID,并提供了下载本结果文档按钮。接着是比对目标数据库的信息,包括目标数据库的名字、序列条数和字数。最后是用于比对的序列的信息。
第 二部分是序列比对的结果显示。显示的字项有Accession、Description、Max score 、Total score、Query coverage、E value和Max ident。其中Accession指序列的AC号,Description是对序列的简要描述性信息,Max score 、Total score、Query coverage、E value和Max ident是序列比对结果的评价性信息,序列结果的排列默认由Max score由高到低排列。
在比对结果列表的下文有三个按钮,分别为“Get selected sequences”、“Select all”和“Deselect all”,分别用于获取选定的序列、全选序列与全反选序列。
2)在“Show results”中选择“Hit table”, 页面自动跳转到“Hit table”显示页面:
Hit table显示格式的第一部分与Pairwise results的第一部分一样,都是对此次工作的描述性信息。第二部分为序列比对的详细信息。
Hit table的序列比对信息主要有以下几项:
Query ID:用于比对的序列号,即用于查询的第几条序列,如果只有一条,则为Query 1。
Subject ID:目标序列的标识号。
Description:比对目标序列的简要描述。
Alignment Length:比对目标序列的长度
Score:比对得分
E-value:E值。
Identity:匹配率。
Mismatches:错配率。
Gap:空位数。
Hit order:
Q.start:查询序列的开始位点。
Q.end:查询序列的结束位点。
Q.Length:查询序列的长度。
S.start:比对目标序列的开始位点。
S.end:比对目标序列的结束位点。
S.Length:比对目标序列的长度。
Job ID:LSBI1208229443745OFS
top↑
BLAST的操作流程一般的BLAST操作流程有以下几个步骤:
1)在LSBI的首页点击“在线服务”——“Blast”,进入BLAST的首页。
2)根据需要选择五个BLAST子程序中的一个,如选择第一个“nucleotide blast”,点击进入其配置页面:
3)添加并配置BLAST参数,通常为以下几个:
在“输入序列”文本框中输入FASTA格式的核酸序列,或者从文件导入含有核酸序列的FASTA格式文件。
在“设置序列范围(可选)”里可以指定序列需要比对的开始位点和结束位点。
在“任务标题”里用户可以根据需要填写此次任务的标题,也可以为空。
在“数据库”下拉列表中选择要使用的数据库,不同的BLAST子程序能够使用不用的数据库,数据库的说明请参考“常见问题”——LSBI有那些数据库?
在“程序”决定所使用的程序。
决定是否使用“过滤”。
“设置其他参数”:包括期望值、描述、期望命中数以及更多参数。更多参数见本文档“BLAST参数设置说明”。
点击“查询”按钮提交任务,或“重填”按钮重新配置参数。
4)提交任务后,页面跳转到BLAST运行页面,稍等片刻,运行结束,进入结果显示格式选择与下载页面:
在页面中选择“Pairwise results”或者“Hit table”格式进行结果显示或下载。
源出处:http://lifecenter.sgst.cn/blast/cn/blastHelp.do
- BLAST帮助
- blast++
- Blast+
- ubuntu blast
- Blast使用
- 本地blast
- blast linux
- blast 详解
- blast 建库
- BLAST用法
- BLAST+使用方法
- Linux下BLAST安装及BLAST使用
- 煤矿爆炸 mine blast
- TYVJ P1046 Blast
- Blast本地使用
- blast的相关概念
- tyvj 1046 Blast
- blast数据库含义
- 生物在线补习及生物网址
- perl在线学习
- 求职网站
- 网址
- refseq
- BLAST帮助
- xml文档应用C#篇
- Blast程序本地化使用的方法
- Accession number & GI & GeneID
- Data File Formats-UCSC-GFF,PSL
- GFF格式&&GBrowse介绍&&及其它可视化工具
- XML文档应用C#篇(二)
- BLAT 系列软件使用
- pslReps