文本挖掘的概述

来源：互联网发布：澳大利亚it 编辑：程序博客网时间：2024/05/16 15:05

以下的总结，都是自己凭借自己看一些文献，总结的。可能有理解偏差的地方。

文本挖掘基本的步骤：

（1）文本的预处理

（2）文本的向量空间表示（VSM模型）

（3）降维

（4）计算权重

（5）使用数据挖掘的算法进行模型的建立，或者聚类

具体的介绍一下

（1）文本的预处理

主要涉及到文本的分词、去重。

文本分词需要用到词库，因此词库的选择也是很重要的，大家可以选择中科院词库，哈工大的词库

一般分词算法，我选择了Paoding，LingPie，中科院分词系统

文档的分词算法：最大正向匹配，最大逆向匹配，双向匹配。具体算法，大家可以百度

（2）文本表示：

我们选用VSM（向量空间模型），将一片文档用一个向量表示

（3）降维

因为我们的文档，会根据词库的词数，而建立一个向量。如果词库的数量有10000个词，那么我们的文档就是10000维，计算量很大

然而，其中的很多词可能会降低我们文本分类的准确性。

我们一般可以使用主成分分词、岭回归、Lasso、决策树、信息熵、信息增益、增益率、基尼指数、交叉熵等一些方法，降维。

（4）我们需要计算每一个词的权重。一般使用TF-IDF 或者TFC

TF （Term Frequency）词频，一个单词在一片文档当中出现的次数 TFi=fij 单词i在文档j中出现的次数/max单词k在文档j中出现次数最多的单词

TF还可以理解为一个单词，在一篇文档中，出现的次数越多，则该次越重要

IDF log2（N/ni） N 代表多有的文档的总数 ni代表单词i出现的文档总数

IDF可以理解为单词i在越多的文档中出现的次数越多，越不重要

TFC 讲文档进行规范化

（5）我们可以对文档进行分类或者文档进行聚类

根据文档的内容，进行文档的相似度的计算

可以选择不同的度量相似度的方法。

举个简单的例子，判断二个文档的相似度一个可以选择余弦定理来计算余弦的值

cos =X。Y/|X|.|Y| 夹角越小越相似。

余弦定理对于稀疏的向量的计算速度是很快的。

我们还可以根据协同过滤的方式，计算相似度，进行个性化的推荐。

这是推荐系统的一个主要的方式。

0 0