文本挖掘的概述
来源:互联网 发布:澳大利亚it 编辑:程序博客网 时间:2024/05/16 15:05
以下的总结,都是自己凭借自己看一些文献,总结的。可能有理解偏差的地方。
文本挖掘基本的步骤:
(1)文本的预处理
(2)文本的向量空间表示(VSM模型)
(3)降维
(4)计算权重
(5)使用数据挖掘的算法进行模型的建立,或者聚类
具体的介绍一下
(1)文本的预处理
主要涉及到文本的分词、去重。
文本分词需要用到词库,因此词库的选择也是很重要的,大家可以选择中科院词库,哈工大的词库
一般分词算法,我选择了Paoding,LingPie,中科院分词系统
文档的分词算法:最大正向匹配,最大逆向匹配,双向匹配。具体算法,大家可以百度
(2)文本表示:
我们选用VSM(向量空间模型),将一片文档用一个向量表示
(3)降维
因为我们的文档,会根据词库的词数,而建立一个向量。如果词库的数量有10000个词,那么我们的文档就是10000维,计算量很大
然而,其中的很多词可能会降低我们文本分类的准确性。
我们一般可以使用主成分分词、岭回归、Lasso、决策树、信息熵、信息增益、增益率、基尼指数、交叉熵等一些方法,降维。
(4)我们需要计算每一个词的权重。一般使用TF-IDF 或者TFC
TF (Term Frequency) 词频,一个单词在一片文档当中出现的次数 TFi=fij 单词i在文档j中出现的次数/max单词k在文档j中出现次数最多的单词
TF还可以理解为 一个单词,在一篇文档中,出现的次数越多,则该次越重要
IDF log2(N/ni) N 代表多有的文档的总数 ni代表单词i出现的文档总数
IDF可以理解为 单词i在越多的文档中出现的次数越多,越不重要
TFC 讲文档进行规范化
(5)我们可以对文档进行分类或者文档进行聚类
根据文档的内容 ,进行文档的相似度的计算
可以选择不同的度量相似度的方法。
举个简单的例子,判断二个文档的相似度 一个可以选择余弦定理来计算余弦的值
cos =X。Y/|X|.|Y| 夹角越小越相似。
余弦定理 对于稀疏的向量的计算速度是很快的。
我们还可以根据协同过滤的方式,计算相似度,进行个性化的推荐。
这是推荐系统的一个主要的方式。
- 文本挖掘的概述
- 文本挖掘的体会
- 文本挖掘的介绍
- 文本挖掘-词的发现
- 文本挖掘的大致理解
- 文本挖掘的具体流程
- 文本挖掘工具的介绍
- 文本挖掘的基本流程
- 文本挖掘的相关实例
- 文本挖掘的基本流程
- 文本挖掘的分词原理
- 文本挖掘的分词原理
- 文本挖掘
- 文本挖掘
- 文本挖掘
- 文本挖掘
- 文本挖掘
- 文本挖掘
- 深入解读泛型
- PhpStorm中terminal窗口字体修改
- 我的MYSQL学习心得(四) 数据类型
- 【最强眼力山寨版】钛合金眼神的试炼
- css定位在屏幕固定位置
- 文本挖掘的概述
- 点击事件的执行过程
- Skype for Business 2015新功能之Web会议安排
- 160多个android开源代码汇总
- Object-C 切换到 Swift 全程直播
- 教程网站收集
- java-常用工具命令
- YTU 1020: I think it
- 如何用Maven创建web项目(具体步骤)