GENSIM
来源:互联网 发布:ipad淘宝hd旧版本 编辑:程序博客网 时间:2024/05/29 03:16
gensim试用
gensim: http://radimrehurek.com/gensim/index.html
Gensim is a free Python framework designed to automatically extract semantic topics from documents, as efficiently (computer-wise) and painlessly (human-wise) as possible.
gensim安装
sudo apt-get install python-numpy python-scipy
pip install gensim
lsi计算文档相似度
先准备数据,我爬了约2w篇豆瓣日记作为这次试验的数据,数据和代码可以在这里https://github.com/largetalk/yaseg 找到。
主要代码如下:
一共有这么些步:
- 计算词袋(bag of word), 即这里的dictionary
- 计算corpus
- 训练TF-IDF模型
- 计算tf-idf向量
- 训练LSI模型
- 对文档用LSI模型分类并建立索引
- 查寻
结果
这是分类出来的30个topic, 看起来区分度不大,这估计和豆瓣本身特质相光。
0 0
- GENSIM
- GENSIM
- gensim
- gensim试用
- gensim安装
- gensim introduction
- gensim工具包
- 安装gensim
- gensim word2vec
- Gensim入门教程
- Gensim 安装
- gensim Word2vec
- gensim 简介
- gensim入门
- gensim-lda
- Gensim学习
- 【gensim中文教程】开始使用gensim
- gensim做主题模型
- uses-feature之android:required
- Android Volley完全解析(一),初识Volley的基本用法
- 【Linux系列】Ubuntu ping通,xshell无法连接
- 腾讯云服务器linux系统下apache php mysql安装
- 螺旋队列实现
- GENSIM
- 第15章习题解答(一)——《x86汇编语言:从实模式到保护模式》读书笔记40
- 【1】HTML初认识
- PCIe 基础(一)操作配置空间
- 服务的安装和卸载
- 在javaWeb方面涉及到的设计模式
- JDBC——数据库连接
- 浅谈算法和数据结构(1):栈和队列
- makefile中的 -O -O2选项含义