使用Vegan包进行生态学数据排序分析的学习（一）

来源：互联网发布：爱淘宝天天特价女装编辑：程序博客网时间：2024/06/15 23:01

基本概念与分析原理的理解

做生物信息以来一直对排序等的概念不是特别理解。这两天查了几篇资料，梳理了一下，做一下简要的总结。
1.排序：
假设我们有一个OTU表：
这里写图片描述
行为样本，列为OTU（也可以理解为特征）。我们要对这4个样本进行排序：
假如只有一个otu: 那么根据这一个OTU在每个样本中的值就可以排序啦。
假如有两个OTU（otu_9,otu72）：我们可以建立二维坐标轴，横坐标是OTU9，纵坐标为OTU72，根据这两个OTU的值，我们也可以画出点来。
假如有三个OTU：那么就是三维坐标来画点，也是可以画的。
那么大于三个OTU的时候呢？那就是n维空间中的点了，是无法画出来的。
所以我们要找到一种方法，将n维空间中的点，在二维平面内展现出来。
由于这么多的点无法共面，所以要找到一个平面，使空间中的所有点都能投影在这个平面上，而且投影的点之间的距离，越能反应真实距离越好。这个投影过程就是排序运算过程。好的排序方法是投影过程信息损失最少。

排序简单分类：

只使用物种组成数据的排序称作间接排序，同时使用物种和环境因子组成数据的排序叫做直接排序。

排序方法分类：

基于线性模型的主分量分析：PCA,RDA (线性模型)

基于非线性模型的对应分析 : CA,CCA （单峰模型）

选择排序的模型：

进行排序分析之前，首先要判断是选择线性模型（PCA 和RDA）还是单峰模型(CA和CCA)的排序方法。一般来说，如果物种分布变化大，选择单峰模型效果比较好，反之，线性模型也是不错。可以通过DCA分析来判断，如果DCA排序前4个轴中最大值超过4，选择单峰模型排序更合适。如果是小于3，则选择线性模型更好(Lepx & Smilauer 2003)。如果介于3-4之间，单峰模型和线性模型都可行。

R中DCA计算方法：decorana()函数

decorana(otu.txt) 结果看Axis lengths中的最大值。
这里写图片描述
在本案例中，Axis lengths 最大值为3.5954，介于3-4之间，线性模型（PCA 和RDA）和单峰模型（CA和CCA）都适用。

阅读全文

0 0