使用Vegan包进行生态学数据排序分析的学习(一)

来源:互联网 发布:爱淘宝天天特价女装 编辑:程序博客网 时间:2024/06/15 23:01

基本概念与分析原理的理解

做生物信息以来一直对排序等的概念不是特别理解。这两天查了几篇资料,梳理了一下,做一下简要的总结。
1.排序:
假设我们有一个OTU表:
这里写图片描述
行为样本,列为OTU(也可以理解为特征)。我们要对这4个样本进行排序:
假如只有一个otu: 那么根据这一个OTU在每个样本中的值就可以排序啦。
假如有两个OTU(otu_9,otu72):我们可以建立二维坐标轴,横坐标是OTU9,纵坐标为OTU72,根据这两个OTU的值,我们也可以画出点来。
假如有三个OTU:那么就是三维坐标来画点,也是可以画的。
那么大于三个OTU的时候呢?那就是n维空间中的点了,是无法画出来的。
所以我们要找到一种方法,将n维空间中的点,在二维平面内展现出来。
由于这么多的点无法共面,所以要找到一个平面,使空间中的所有点都能投影在这个平面上,而且投影的点之间的距离,越能反应真实距离越好。这个投影过程就是排序运算过程。好的排序方法是投影过程信息损失最少。

排序简单分类:

只使用物种组成数据的排序称作间接排序,同时使用物种和环境因子组成数据的排序叫做直接排序。

排序方法分类:

基于线性模型的主分量分析:PCA,RDA (线性模型)

基于非线性模型的对应分析 : CA,CCA (单峰模型)

选择排序的模型:

进行排序分析之前,首先要判断是选择线性模型(PCA 和RDA)还是单峰模型(CA和CCA)的排序方法。一般来说,如果物种分布变化大,选择单峰模型效果比较好,反之,线性模型也是不错。可以通过DCA分析来判断,如果DCA排序前4个轴中最大值超过4,选择单峰模型排序更合适。如果是小于3,则选择线性模型更好(Lepx & Smilauer 2003)。如果介于3-4之间,单峰模型和线性模型都可行。

R中DCA计算方法:decorana()函数

decorana(otu.txt) 结果看Axis lengths中的最大值。
这里写图片描述
在本案例中,Axis lengths 最大值为3.5954,介于3-4之间,线性模型(PCA 和RDA)和单峰模型(CA和CCA)都适用。

阅读全文
0 0
原创粉丝点击