GSEA介绍--鹏鹏原创,必是精品
来源:互联网 发布:dps数据处理软件下载 编辑:程序博客网 时间:2024/04/28 11:15
引入:
Functional annotation enrichment analysis的缺点:
1、sampling issue
2、cut off bias 人为决定p值
3、lost mild changes 丢掉了改变小的那些基因
而GSEA避免了以上的缺点。
GSEA结果生成原理:
先看图片下部的黑线,从左到右是Ranking排列;
再看上面绿色线,有两个力量,向上和向下的力量,
ES=Max(Phit-Pmiss),所以Phit就是向上的力量,Pmiss就是向下的力量
Phit 计算:
NR就是所有的genelist的p值的加总,就是所有黑线的p值加总,R可以想成一个p值或者t值。
某一个黑线对应的Phit=这条黑线前面对应的NR加总÷所有的genelist的p值的加总。所以向上最多走到1
Pmiss 计算:
Pmiss就是所有白色的部分均分1,所以向下最多走到1。
综上,就是说如果gene很集中,就会一开始冲得很快很高,导致ES很高。
PS:Phit中分子有个p乘方,这个就是为了防止ES很高,却出现在正中间,这里的基因没有significant change,这样子没有研究的意思。
加了p乘方可以给前面Ranking的加权,其ES出现在图左边
统计模型的检验:
因为本身模型很复杂,所以生物学家选择了permutation,将数据集打乱,看看打乱后的ES值是不是比原来自己的分类高,如果比自己的分类高,就说明自己的分类一点都不值钱。通常选择permutation 1000次,然后出来一个正态分布,再看看自己的ES落在哪里,然后就可以根据正态分布的方法,计算出p值
GSEA把实验所得出的基因组样本表达文件分为两类,标记为1和2。根据表达值的相关系数和特征分类,(用某种标准)让基因进行排序。
首先从一个叫S的探针集序列开始,假定它是一类编码产生新陈代谢的通路基因集,被定位于相同的细胞生成位段,或者是说有相同GO分类。(译者注:GO是什么?维基百科。) GSEA的目的就在于判断S的成员是随机的分布于L(待测基因探针所排序列)上还是有序的分布于顶部与尾部。我们的预期目的是S探针集能在表型上揭示出后者的分布方式。
下面是具体的三个重要步骤:
步骤1:计算富集积分(Enrichment Score,ES)
我们计算出一个富集积分值(ES),其为S的基因超表达在整个L序列的头部和尾部的多少。
积分值的计算是从L序列的头部开始往尾部走,每当遇到一个基因是在S上就加分,没有则减分。加分的分值大小根据基因表型相关系数大小。富集分值是从没有遇到的时候开始计算直到最大值误差值;而且它还与K-S test统计加权值有关。
步骤2:估计ES的显著程度
我们估计统计学上有意义部分的ES值(名义上的P值),是通过一个经验基础表型方法——置换检验,保存基因表达数据的结构的复杂相关系数。明确地,我们置换不同表型标签下的数据,并且再一次计算ES值,使之形成一个新的ES分布(假分布)。从经验上说,交换之后,ES的P值相对于新的ES值(统计分布)来说若是显著的变化,则有理由说明此基因集是有一定的生物学意义的。
GSEA结果图解:
本图中,就是说领头亚基的这些基因,富集在RNA-seq数据的前端(高表达端)
如果,这张Enrichment图是ClassA的(此处ClassA为Gene敲除基因前,ClassB为NoGene敲除基因后)
那么,说明领头亚集的这些基因富集在ClassA的RNA-seq的高表达区域,
类似于下图中的Gene Set2 enriched in Class A
领头亚集(leading edge subset)中的基因是指对ES 值贡献最大的基因集合。
当ES 为正值时,领头亚集位于ES值对应排序序列之前,反之,则位于ES 值对应排序序列之后。
显然,领头亚集的出现说明一方面这些基因在通路中有富集,非散在分布,另一方面,说明这些基因在通路中有共同的表达趋势。显然,在ES 图中出现领头亚集的形状的,表明这个功能基因集在定义的实验条件下具有更显著的生物学意义。
1 0
- GSEA介绍--鹏鹏原创,必是精品
- 出自网易,必是精品
- 互联网创业原创精品
- 玄机出品,必属精品
- IOS开发人员必看的精品资料
- iOS开发人员必看的精品资料
- 是原创
- 今天去注册试用google免费邮箱,果然不愧是google出品,必是精品,按下文所述即可正确注册
- 原创精品Oracle技术图书,新春上市!
- 电脑必装软件列表整理,必属精品
- GSEA-学习笔记
- GSEA使用(初级)
- GSEA富集分析
- 瓦刀发布,必属精品:Domino邮箱模板
- 瓦刀发布,必属精品:domino超级首页【v1.0】
- 瓦刀发布,必属精品:domino超级首页【v2.0】
- iOS开发人员必看的精品资料(100个)
- IOS开发人员必看的精品资料100
- 安卓易学,爬坑不易—腾讯老司机的RecyclerView局部刷新爬坑之路
- java String赋值问题,nul,new String()函数赋值问题
- 导入hadoop 1.2.1源码到eclipse
- 小码哥杯java程序比赛复习(九)常用类(上)
- 弹出层,遮罩层,浮层菜单
- GSEA介绍--鹏鹏原创,必是精品
- python的Template使用指南
- Android init.rc symlink 无效
- iOS AppDelegate程序生命运行过程及使用时机
- sencha touch 中navigationview嵌套tabpanel出现的问题
- 腾讯地图4级下的像素坐标分布规律
- 微信小程序之二三级菜单(navigateTo传递数据的应用)
- 淘宝 造物节,双11宇宙 技术分析
- angularJS 过滤器