高通量测序基因组拼接技术 专业名词解析

来源:互联网 发布:mac cad菜单栏不见了 编辑:程序博客网 时间:2024/04/30 16:48
Reads :
高通量测序平台产生的序列就称为reads。
 
Contig :
拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。
被一些多次重复序列等不确定序列分隔。
 
Scaffold :
scaffold是拼接的意思,即通过构筑文库将一个个contig连接成完整的序列。
基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。
 
singleton :
一个contig被组成出来之后,鉴定发现它是编码蛋白质的基因。
unigene :
多个contigs组装成scaffold之后,鉴定发现它编码蛋白质的基因。

Contig N50 :
Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3...………Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。

Scaffold N50 : 
Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25。
将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50。举例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。

EST (Expressed Sequence Tag)表达序列标签 :
是从一个随机选择的cDNA 克隆,进行5’端和3’端单一次测序挑选出来获得的短的cDNA 部分序列,代表一个完整基因的一小部分。在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。由于cDNA文库的复杂性和测序的随机性,有时多个EST代表同一基因或基因组,将其归类形成EST簇(EST cluster)

Sanger法测序 :
Sanger法是根据核苷酸在某一固定的点开始,随机在某一个特定的碱基处终止,并且在每个碱基后面进行荧光标记,产生以A、T、C、G结束的四组不同长度的一系列核苷酸,然后在尿素变性的PAGE胶上电泳进行检测,从而获得可见DNA碱基序列的一种方法。

四倍简并位点(Fourfold Degenerate Synonymous Site, 4DTv):
在进化学上被作为评估基因组是否发生全基因组复制事件的参数。
一个遗传密码子通常由三个核苷酸构成,每个核苷酸称为一个位点,从左到右依次为第一位点,第二位点和第三位点。如果密码子的某个位点上任何核苷酸都编码同样的氨基酸,则这个位点为四倍简并位点。

基因的Transcript Variant 和 isoform的区别如下:
transcript variant是从结果来看的,一个基因产生了不同的mRNA;splice variant是从过程讲的,强调内含子剪切的方式不一样。
variant指的是转录本的亚型,而isform指的是蛋白水平的。有的时候虽然variant很多但是对应的蛋白可能是重复的。
有很多过程可以影响isoform的形成,如可变剪切,即不一定所有的外显子都用来形成成熟的mRNA,而且有时候什么内含子,外显子也不是绝对的。另外有RNA editing这个过程,会使得形成mRNA时某个特定的位置的碱基发生变化,也就是变成不是原来基因想要编码的东西。

Orthology描述在不同物种中来自于共同祖先的基因,Orthologous基因可能有相同的功能,也可能没有。Paralogy描述在同一物种内由于基因复制而分离的同源基因。
Paralogs 旁系同源:A paralog is one of a set of homologous genes that have diverged from each other as a consequence of gene duplication. For example, the mouse a-globin and b-globin genes are paralogs. The relationship between mouse a-globin and chick b-globin is also considered paralogous. 祖先基因经过复制后分离产生的基因是Paralogs。
Orthologs 直系同源:Orthology describes genes in different species that derive from a single ancestral gene in the last common ancestor of the respective species.

对于一个给定的世系,在物种分化后发生复制事件产生的基因称为inparalog,而复制事件在分化之前,则称为outparalog。

直系同源(orthologs): 同源的基因是由于共同的祖先基因进化而产生的。
旁系同源(paralogs): 同源的基因是由于基因复制产生的。
用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。



selective sweep :选择性清除; 选择性清扫; 选择性删除;
选择性清除是指由于最近的较强的正向自然选择,一个突变位点相邻DNA上的核苷酸之间的差异下降或消除。