gensim试用
来源:互联网 发布:上网限制软件 编辑:程序博客网 时间:2024/05/22 03:48
gensim试用
gensim: http://radimrehurek.com/gensim/index.html
Gensim is a free Python framework designed to automatically extract semantic topics from documents, as efficiently (computer-wise) and painlessly (human-wise) as possible.
gensim安装
sudo apt-get install python-numpy python-scipy
pip install gensim
lsi计算文档相似度
先准备数据,我爬了约2w篇豆瓣日记作为这次试验的数据,数据和代码可以在这里https://github.com/largetalk/yaseg 找到。
主要代码如下:
一共有这么些步:
- 计算词袋(bag of word), 即这里的dictionary
- 计算corpus
- 训练TF-IDF模型
- 计算tf-idf向量
- 训练LSI模型
- 对文档用LSI模型分类并建立索引
- 查寻
结果
这是分类出来的30个topic, 看起来区分度不大,这估计和豆瓣本身特质相光。
- gensim试用
- GENSIM
- GENSIM
- gensim
- 试用
- 试用
- 试用
- 试用
- 试用
- 试用
- 试用
- 试用
- gensim安装
- gensim introduction
- gensim工具包
- 安装gensim
- gensim word2vec
- Gensim入门教程
- POJ 1207水题
- PHP连接局域网MYSQL数据库的简单实例
- codeblocks快捷键(转载)
- 深入理解php的MySQL连接类
- .net会有初始内存,不够会自增的,不像c++会溢出
- gensim试用
- atlassian confluece 信息泄露漏洞
- ffmpeg学习
- PHP 设置MySQL连接字符集的方法
- php 连接mysql连接被重置的解决方法
- Log4J日志管理类使用详解
- linux下创建守护进程(daemon process)
- Android开发中在一个Activity中关闭另一个Activity
- oracle 锁表查询及解决、表字段查询