GSEA介绍--鹏鹏原创，必是精品

来源：互联网发布：dps数据处理软件下载编辑：程序博客网时间：2024/04/28 11:15

引入：

Functional annotation enrichment analysis的缺点：

1、sampling issue

2、cut off bias 人为决定p值

3、lost mild changes 丢掉了改变小的那些基因

而GSEA避免了以上的缺点。

GSEA结果生成原理：

先看图片下部的黑线，从左到右是Ranking排列；

再看上面绿色线，有两个力量，向上和向下的力量，

ES=Max(Phit-Pmiss),所以Phit就是向上的力量，Pmiss就是向下的力量

Phit 计算：

NR就是所有的genelist的p值的加总，就是所有黑线的p值加总，R可以想成一个p值或者t值。

某一个黑线对应的Phit=这条黑线前面对应的NR加总÷所有的genelist的p值的加总。所以向上最多走到1

Pmiss 计算：

Pmiss就是所有白色的部分均分1，所以向下最多走到1。

综上，就是说如果gene很集中，就会一开始冲得很快很高，导致ES很高。

PS：Phit中分子有个p乘方，这个就是为了防止ES很高，却出现在正中间，这里的基因没有significant change，这样子没有研究的意思。

加了p乘方可以给前面Ranking的加权，其ES出现在图左边

统计模型的检验：

因为本身模型很复杂，所以生物学家选择了permutation，将数据集打乱，看看打乱后的ES值是不是比原来自己的分类高，如果比自己的分类高，就说明自己的分类一点都不值钱。通常选择permutation 1000次，然后出来一个正态分布，再看看自己的ES落在哪里，然后就可以根据正态分布的方法，计算出p值

GSEA把实验所得出的基因组样本表达文件分为两类，标记为1和2。根据表达值的相关系数和特征分类，（用某种标准）让基因进行排序。

首先从一个叫S的探针集序列开始，假定它是一类编码产生新陈代谢的通路基因集，被定位于相同的细胞生成位段，或者是说有相同GO分类。（译者注：GO是什么？维基百科。） GSEA的目的就在于判断S的成员是随机的分布于L（待测基因探针所排序列）上还是有序的分布于顶部与尾部。我们的预期目的是S探针集能在表型上揭示出后者的分布方式。

下面是具体的三个重要步骤：

步骤1：计算富集积分（Enrichment Score，ES）

我们计算出一个富集积分值（ES），其为S的基因超表达在整个L序列的头部和尾部的多少。

积分值的计算是从L序列的头部开始往尾部走，每当遇到一个基因是在S上就加分，没有则减分。加分的分值大小根据基因表型相关系数大小。富集分值是从没有遇到的时候开始计算直到最大值误差值；而且它还与K-S test统计加权值有关。

步骤2：估计ES的显著程度

我们估计统计学上有意义部分的ES值（名义上的P值），是通过一个经验基础表型方法——置换检验，保存基因表达数据的结构的复杂相关系数。明确地，我们置换不同表型标签下的数据，并且再一次计算ES值，使之形成一个新的ES分布（假分布）。从经验上说，交换之后，ES的P值相对于新的ES值（统计分布）来说若是显著的变化，则有理由说明此基因集是有一定的生物学意义的。

GSEA结果图解：

本图中，就是说领头亚基的这些基因，富集在RNA-seq数据的前端（高表达端）

如果，这张Enrichment图是ClassA的（此处ClassA为Gene敲除基因前，ClassB为NoGene敲除基因后）

那么，说明领头亚集的这些基因富集在ClassA的RNA-seq的高表达区域，

类似于下图中的Gene Set2 enriched in Class A

领头亚集(leading edge subset)中的基因是指对ES 值贡献最大的基因集合。

当ES 为正值时，领头亚集位于ES值对应排序序列之前，反之，则位于ES 值对应排序序列之后。

显然，领头亚集的出现说明一方面这些基因在通路中有富集，非散在分布，另一方面，说明这些基因在通路中有共同的表达趋势。显然，在ES 图中出现领头亚集的形状的，表明这个功能基因集在定义的实验条件下具有更显著的生物学意义。

1 0