文本挖掘的概述

来源:互联网 发布:澳大利亚it 编辑:程序博客网 时间:2024/05/16 15:05

以下的总结,都是自己凭借自己看一些文献,总结的。可能有理解偏差的地方。

文本挖掘基本的步骤:

(1)文本的预处理

(2)文本的向量空间表示(VSM模型)

(3)降维

(4)计算权重

(5)使用数据挖掘的算法进行模型的建立,或者聚类

具体的介绍一下

(1)文本的预处理

主要涉及到文本的分词、去重。

文本分词需要用到词库,因此词库的选择也是很重要的,大家可以选择中科院词库,哈工大的词库

一般分词算法,我选择了Paoding,LingPie,中科院分词系统

文档的分词算法:最大正向匹配,最大逆向匹配,双向匹配。具体算法,大家可以百度

(2)文本表示:

我们选用VSM(向量空间模型),将一片文档用一个向量表示

(3)降维

因为我们的文档,会根据词库的词数,而建立一个向量。如果词库的数量有10000个词,那么我们的文档就是10000维,计算量很大

然而,其中的很多词可能会降低我们文本分类的准确性。

我们一般可以使用主成分分词、岭回归、Lasso、决策树、信息熵、信息增益、增益率、基尼指数、交叉熵等一些方法,降维。

(4)我们需要计算每一个词的权重。一般使用TF-IDF 或者TFC

TF (Term Frequency) 词频,一个单词在一片文档当中出现的次数  TFi=fij  单词i在文档j中出现的次数/max单词k在文档j中出现次数最多的单词  

TF还可以理解为 一个单词,在一篇文档中,出现的次数越多,则该次越重要

IDF log2(N/ni) N 代表多有的文档的总数  ni代表单词i出现的文档总数

IDF可以理解为 单词i在越多的文档中出现的次数越多,越不重要

TFC 讲文档进行规范化

(5)我们可以对文档进行分类或者文档进行聚类

根据文档的内容 ,进行文档的相似度的计算

可以选择不同的度量相似度的方法。

举个简单的例子,判断二个文档的相似度 一个可以选择余弦定理来计算余弦的值

cos =X。Y/|X|.|Y| 夹角越小越相似。

余弦定理 对于稀疏的向量的计算速度是很快的。

我们还可以根据协同过滤的方式,计算相似度,进行个性化的推荐。

这是推荐系统的一个主要的方式。




0 0