论文读书笔记-THE PECULIARITIES OF THE TEXTDOCUMENTREPRESENTATION, USINGONTOLOGY AND TAGGING-BASED CLUSTERI

来源:互联网 发布:杭州行知中学学生档案 编辑:程序博客网 时间:2024/05/21 07:47


 

这篇文章应该算是一篇综述性的文献,比较全面描述了文档聚类中的要点,虽然只有四页纸,但囊括了所有值得注意的地方。文中提出了通过给文档打标签提高聚类准确度,而标签就是文档中的关键词。在最后,作者也提出了本体的方法,不过只是理论,没有加以验证。

 

下面是本文中的一些要点:

1、  文档聚类的步骤

Document representation selection 例如维度数目

Association measure selection 如何衡量相似性

Clustering method selection 聚类方法

Cluster representation selection 聚类结果如何表示

Validation of the results 如何验证结果的正确性

 

2、  文档聚类

下图是两种典型的聚类方法:


左图表示的是划分聚类方法,最常见的就是kmeans聚类

右图表示的是层次聚类方法,这里用系统树状图表示,每次合并相近的类别,最后合并成一个类别结束

 

3、  文档表示方法

一般来说,为了得到一个文档的向量表示,首先需要统计出待聚类文档集合中所有的词,得到字典,然后任意一篇文档中的词就可以在这个字典中找到对应位置,进而表示成向量形式,向量维度为字典数目n,向量中的每个值为该词在这篇文章中的权重。

但是采用上述方法并不一定能得到较好的结果,一个好的文档表示方法应该具备以下几个固有属性:

-Simple appliance for describing documentfeatures 便于描述文档特征

-Easy to calculate similarity between twodocuments 易于计算两个文档间距离

-The clustering result is influenced by the collection dictionarythat can ignore multi-words expressions, e.g. European Union. As well synonymousand polysemous interpretations are problematic as identical features can beassigned to them 距离结果可以忽略多个词表达的影响,不受同义词或多义词的特征的影响

-Non-optimal appliance to local languages as Dutch,Latvian, Lithuanian and similar, as an uncompact dictionary is created and theclustering results can be perverted 针对相似度较高的一些当地语言处理时无须进行优化,如果创建字典文件聚类结果可能会产生较大的变化

-Word generalization relation is ignored for theretrieval of documents’ features. Words in the collection dictionary arepresented independently, however generally they belong to some group as, forexample, gold and silver belongs to precious metals 提取文档特征时应该对词进行泛化,在字典中每个词都是独立的,这让两个词之间的联系消失了

 

为了解决上面这几个问题,本文提出了针对文档打标签的方法,这里的标签其实就是关键词。值得一提的是,文中的关键词都是人工标定的,比如文档的作者。

经过关键词提取之后,可以得到关键词集合,于是上面文档的向量维度就变成了关键词集合中的数目,向量中每个值的权重变成了每个关键词的权重,权重的计算方法如下:


这里是df,指的是包含这个关键词文档的数目。

 

4、  聚类结果衡量

Entropy: It defines the degree ofdispersion of documents of different classes in the limits of one distribution.The more the value of the entropy is closer to 0, the lesser is the dispersiondegree, moreover, the better are the clustering results 定义了在不同类别中文档分散度的情况,松散度越小证明聚类效果越好。

Purity: It evaluates the degree ofconcentration of documents of one class in the limits of one distribution. Themore the value of purity metrics is closer to 1, the better are the clustering results.

在同一个类别中文档的紧密度,越大证明聚类效果越好

经过比较能够发现在文档达到一定数目后,基于关键词的文档聚类效果较好:


 

5、  Ontology Usage in the Clustering Method(聚类中的本体应用)

虽然提取关键词后进行聚类效果较好,但是在提取关键词时依然是把每个词视为独立的短语,并不考虑短语直接的关系,如果考虑到词的本体特征,那么效果可能会更好,不过本文没有加以验证。

应用本体之后,一篇文档可以表示为一个多维向量,其中不光包括每个词的频率,也包括每个词的概念。


tf defines the frequency of the word ti in thedocument d

cf is the frequency of the concept cj in thedocument d

使用本体进行聚类的原理如下:

-Use a simple ontology for generatingalternative representations of the given document set;

-Representations are constructed byaggregating the original word vector into a concept vector, includinginformation from the concept taxonomy;

-Standard k-means clustering is applied to thedocuments described by the reduced concept vector;

-Present clustering results using ontologynet structure that varies in accordance to the content of the replaced tags.

0 0