第十二周研究总结

来源:互联网 发布:cpu降温软件 编辑:程序博客网 时间:2024/06/16 00:36

 

后基因组时代:2000年6月26日,参与“国际人类基因组计划”的、日、法、德、中6个国家16个研究中心联合宣布人类基因组“工作框架图”画好了,这是覆盖人的大部分基因组、准确率超过90%的DNA序列图,由此进入后基因组时代。

聚类分析:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。

分层聚类算法:对给定数据对象的集合进行层次分解,根据分层分解采用的分解策略。

K-均值聚类算法: 给定一个数据点集合和需要的聚类数目k,k由用户指定,k均值算法根据某个距离函数反复把数据分入k个聚类中。

聚类确认:聚类分析过程中的必要工具,对聚类算法的性能和聚类结果的质量进行评估。

Euclidean距离:它是在m维空间中两个点之间的真实距离。

 

 

 

随着生物基因学的快速发展,现如今已经进入到了后基因组时代,因此,科学家们的探索方向也已经转向对基因的进一步研究,也就是要研究基因的功能。

 

研究基因功能的一个重要方法就是聚类分析。功能相近的基因其表达模式相似,把基因表达数据按照数据的相似性进行划分,实现物以类聚的思想,把表现模式相近的基因聚集到一起,有助于基因功能的研究。聚类分析有多种不同的聚类算法,例如分层聚类、K-均值聚类、SOMs聚类算法。不同的算法得到的结果不尽相同,如何判断聚类分析结果的有效性,进而评估聚类算法的性能,这就需要另外一种技术——聚类确认。

 

外部确认测量和内部确认测量是聚类确认的两个方法。由于外部确认测量是通过一系列参考标准来比对的出结果,而这些参考标准并没有完全得出,因此,这种方法并没有广为使用。通常使用的便是内部确认测量。

 

Silhouette指数、Dunn’s指数、Davies-Bouldin指数和FOM测量是几种常见的内部确认函数。

为了研究这些内部确认函数在聚类分析结果和聚类函数性能的分析能力,本文作者选取了6个标准基因表达数据集,采用绘制图表的方式,直观清晰地分析出了这几种聚类算法的优劣性及这些内部确认函数的评价能力。

 

最终得出了以下结论:四个内部确认函数中,Silhouette指数和FOM测量能够相对较好地体现聚类分析结果的可靠性以及聚类算法的有效性,但从随机分类的结果来看,Silhouette指数得到的结果会有一定的偏差;Davies-Bouldin指数也能得到聚类算法性能的优劣、判断聚类分析结果的有效性,但更好的是在结果是体现在单链接分层聚类上,而且Davies-Bouldin指数得到的结果也是会有一定的偏差;Dunn’s指数并不能很好地得到结果,因此不能够直接用于基因聚类分析结果的有效性分析以及聚类算法性能的分析;从中也得出了HAL、K-means、SOMs是不错的聚类分析算法。

 

本文作者主要是想要通过实验得到的数据来为验证几种内部确认技术的优劣,从而能够更好地对聚类算法进行评估,得到更好的聚类分析结果,为基因功能的研究打下基础。

 

本文在章节安排上,首先引出了聚类分析,进而引入聚类确认,然后把几种内部确认函数的实验结果以及分析结论摆出。让人能够信服,也让人能够轻松地跟着作者的思路走,然后抓住本文重点,获得需要的知识内容。

 

 

0 0
原创粉丝点击