比较基因组学

来源:互联网 发布:广元电视台网络直播 编辑:程序博客网 时间:2024/06/06 01:35
全基因组测序为目标的结构基因组学( structural genomics)。

基因功能鉴定为目标的功能基因组学( functional genomics),又被称为后基因组( postgenome)。

比较基因组学(Comparative Genomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。

比较基因组学应用:
揭示非编码功能序列
发现新基因,揭示基因功能
发掘功能SNP
阐述进化史 

种间比较基因组学:共线性分析、系统发生的进化关系分析
种内比较基因组学:单核苷酸多态性( SNP)、Core-pan基因分析
共线性又称同线性,是一个物种的基因组中相互连锁的基因,在另一物种的基因组中也是连锁关系, 而且在两个物种的遗传图上的位置也是相同的 。

宏观共线性:遗传连锁图上锚定标记排列次序的一致性
微观共线性:物理图上基因序列的一致排列
进化距离非常近的物种间保持很好的微观共线性在进化过程中,基因共线性被各种因素所破坏,进化距离越远的物种之间基因共线性越差,两个物种之间的共线性程度可以作为衡量它们之间进化距离的尺度。

破坏基因组共线性的因素:
转座:DNA的转座,亦称移位( transposition);是由可移动因子介导的遗传物质重排现象。
插入和缺失:插入和缺失( insertion and deletion)是DNA和蛋白质在进化过程中发生的序列长度上的改变,由于缺乏祖先序列的信息,不能肯定其到底是插入事件还是缺失事件,故统称之为增减( indel)
倒置:倒臵是指的基因组中的一段序列发生了颠倒倒臵,与其反向互补链序列进行了交换
染色体易位 :染色体片段位臵的改变称为易位( translocation)。它伴有基因位臵的改变。易位发生在一条染色体内时称为移位或染色体内易位;易位发生在两条同源或非同源染色体之间时称为染色体间易位。 
往往基因组共线性会同时呈现出各种类型变异,通过共线性分析可以直观的找到同源保守区块( block),以及特异性区域。同源保守区可以用来进行细致比较,比如SNP等。特异性区域可以用来检测特异性功能组分的预测。

分析方法
nucmer:将基因组序列按照参考基因组进行排序,重新对各序列的位臵和方向进行重排。
genomeA.seq → genomeA.
sort.seq
genomeB.seq → genomeB.
sort.seq 

Lastz:将排序好的基因组序列进行同源比对,寻找相似区域,得到具体的比对位臵信息。
绘图: SVG,gnuplot,mummerplot,将表格形式的位臵信息转化为图形。

其他一些共线性分析工具
mummer http://mummer.sourceforge.net/
mauve http://darlinglab.org/mauve/
ACT http://www.pseudomonas-syringae.org/Artemis-ACT-NOVA.html

共线性分析对于亲缘关系较近的物种一般使用核苷酸序列来进行分析,如果在核苷酸水平不能呈现出很好的共线性的话,还可以换用编码基因水平的共线性(更适用于真核物
种)

除了全基因组共线性外,常见的还有功能基因簇的局部共线性分析


单核苷酸多态性( SNP),全称Single Nucleotide Polymorphisms, 主要是指在基因组水平上由单个核苷酸的变
异所引起的DNA序列多态性。
SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转(transition)或颠换(transversion)所引起,也可由碱基的插入或缺失( InDel)所致。但通常所说的SNP并不包括后两种情况
在基因组DNA中,任何碱基均有可能发生变异,因此SNP既有可能在编码基因序列内,也有可能在基因以外的非编码
序列
上。
总的来说,位于编码区内的SNP( coding SNP,cSNP)比较少,因为在外显子内,其变异率仅及周围序列的1/5。但它在遗传性疾病研究中却具有重要意义,因此cSNP的研究更受关注。
从对生物的遗传性状的影响上来看, cSNP又可分为2种:
同义cSNP( synonymous cSNP):即SNP所致的编码序列的改变并不影响其所翻译的蛋白质的氨基酸序列,突变碱基与未突变碱基的含义相同;
非同义cSNP( non-synonymous cSNP):指碱基序列的改变可使以其为蓝本翻译的蛋白质序列发生改变,从而影响
了蛋白质的功能。这种改变常是导致生物性状改变的直接原因。

分析方法:
在共线性比对得到的同源区域中,检索SNP位点 
如果有原始测序数据,还可以进行初步的过滤,筛除不可

信SNP位点;
提取参考序列SNP位点两边的序列,然后使用BLAT软件将提取的序列和组装结果进行比对,验证SNP位点可信度。如果比对的长度太小,则认为是不可信的SNP,将去除;比对上多次,认为是重复区域的SNP,也将被去除;
最后用BLAST、 TRF、 Repeatmask软件预测参考序列的重复序列区,过滤位于重复区的SNP。 

结合SNP的位臵信息和参考基因组的注释信息,对SNP进行注释分析。 
KaKs_Calculator 是一套用于计算非同义替换率(通常用 Ka 表示)和同义替换率(通常用 Ks 表示)的软件程序包, 利用他可以计算基因的KA、KS及其比值。需要提供给他一个相对于模版序列比对好的编码基因序列文件,然后通过分析得出该基因的KA、 KS及其比值等信息。 
下游分析:
变异位点富集:基因富集。功能富集
cgMLST:核心基因组多位点序列分型
Core-Pan基因分析 :
根据物种的泛基因组大小与菌株数目的关系,将物种的泛基因组分为开放型泛基因组( open)和闭合型泛基因组( close)。开放型的泛基因组是指,随着测序的基因组数目的增加,物种的泛基因组大小也不断增加。闭合性的泛基因组是指,随着测序的基因组数目增加,物种的泛基因组大小增加到一定的程度后收敛于某一值 。







原创粉丝点击