自然语言处理入门(6)——基于LDA的文章主题生成
来源:互联网 发布:云计算与人工智能 编辑:程序博客网 时间:2024/06/08 13:53
1. LDA概述
LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。
LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。
LDA模型的推导过程包括多项式分布、Dirichlet分布和Gibbs抽样等。具体来说,主要在以下几个方面有广泛的应用:
(1)通过Dirichlet分布取样获得生成文档的主题分布和生成主题的词语分布。
(2)通过主题的多项式分布取样,得到当前文档的对应词语的主题。
(3)通过词语的多项式分布采样,得到生成的词语。
2. 基于LDA的文章主题生成
本文使用python下的lda库来获取语料库和计算文章主题。
实现代码如下所示:
# -*- coding: utf-8 -*-"""Created on Sun Aug 27 20:51:15 2017@author: Administrator"""import numpy as npimport ldaimport lda.datasets'''1.导入数据源'''#通过LDA库自带的API接口调用路透社的数据titles = lda.datasets.load_reuters_titles()for i in range(395): print(titles[i])'''2.求解P(词语|主题),得到每个主题所包含的单词的分布'''X = lda.datasets.load_reuters()vocab = lda.datasets.load_reuters_vocab()titles = lda.datasets.load_reuters_titles()#设置主题数目为20个,每个主题包含8个词语,模型迭代次数为1500次model = lda.LDA(n_topics=20,n_iter=1500,random_state=1)model.fit(X)topic_word = model.topic_word_n_top_words = 8for i,topic_dist in enumerate(topic_word): topic_words = np.array(vocab)[np.argsort(topic_dist)][:-(n_top_words+1):-1] #输出每个主题所包含的单词的分布 print('Topic{}:{}'.format(i,''.join(topic_words)))'''3.求解P(主题|文档),得到文章所对应的主题'''doc_topic = model.doc_topic_for i in range(20): #输出文章所对应的主题 print("{} (top topic:{})".format(titles[i],doc_topic[i].argmax()))
运行结果如下图所示:
由上图可知,调用的数据集文章数为395,文章单词个数为84010,文章主题数为20个。部分文章的标题如下图所示:
每个主题所包含的单词的分布如下图所示:
文章所对应的主题如下图所示(部分,取前20篇文章):
阅读全文
0 0
- 自然语言处理入门(6)——基于LDA的文章主题生成
- 自然语言处理入门(5)——基于WordArt的AGM手机评论词频分析
- 自然语言处理入门(7)——基于TF-IDF的文本自动打标
- NLP自然语言处理系列——LDA主题词模型探析
- 自然语言处理之LDA
- LDA详解:自然语言处理
- 自然语言处理入门——自然语言处理的背景、应用、推荐资料
- python自然语言处理之lda
- 自然语言处理入门(3)——Word2Vec
- 自然语言处理(NLP)—入门、下载数据(一)
- 自然语言处理之LDA主题模型(占坑)
- 自然语言处理入门(一)
- 自然语言处理入门(一)
- Python与自然语言处理(二)基于Gensim的Word2Vec
- 统计自然语言处理(基于语料库的工作)
- 笔记-cs224n(基于深度学习的自然语言处理)
- 自然语言处理入门(2)——中文文本处理利器snownlp
- 基于标题分类的文章主题句识别与提取方法
- Android编程实现读取手机联系人、拨号、发送短信及长按菜单操作方法实例小结
- Redis缓存服务器安装部署
- 分析String ,stringbuilder, stringbuffer
- 20170827,一周总结
- Android系统自带主题初探
- 自然语言处理入门(6)——基于LDA的文章主题生成
- libpng库的开发
- deep learning的一些资料和教材
- Weex环境配置以及踩坑记录
- 【redis】redis导图宏观总结
- map和set容器自定义比较函数
- [js高手之路]构造函数的基本特性与优缺点
- php使用ZipArchive函数实现文件的压缩与解压缩
- 并查集模板