gensim-5个学习阶段
来源:互联网 发布:襄阳网站搜索引擎优化 编辑:程序博客网 时间:2024/05/23 01:16
阶段1--语料库和向量
http://radimrehurek.com/gensim/tut1.html
* 建立语料库步骤
1.从字符串==>向量
2.去除停用词;去除出现次数=1的词;
3.(对英文)小写化处理;词干化处理
4.词袋化处理
5.将vector进行Id化处理
至此,语料库已经建立,可以存储起来(实际也是,建立语料库是一个长期而独立的过程,不会和后续的使用结合在一起)
* 语料流的处理优化
- 实际的语料库数据量不小
- 一次只读取一个文件中的vector,
* 语料的格式
* 语料库格式兼容Numpy和Scipy
阶段2--topic处理
使用语料库进行文章的处理
阶段3--相似性查询
阶段4-处理来自wiki的数据
阶段5--分布式模式
http://radimrehurek.com/gensim/distributed.html
* 基于gensim的分布式,对系统交互要求不高,对延迟的容忍性较好
* Numpy中的linear lagebra对时间消耗很大
- 替换的方式:用更快速的 BLAS(Basic Linear Lagebra) 实现,如
Intel的MKL, AMD的ACML, OS X的vecLib,Sun的Sunpref
或者开源的 GotoBLAS,ALTAS
- 检查所用的BLAS库的方法:
python -c 'import scipy; scipy.show_config()'
* gensim基于Pyro(Python Remote Objects,版本>=4.8)通讯
easy install Pyro4
- gensim-5个学习阶段
- java学习的5个阶段
- 学习存储技术的5个阶段
- 学习存储技术的5个阶段
- 学习存储技术的5个阶段
- 学习Java的5个必经阶段
- Gensim学习
- java学习4个阶段
- 收藏__学习存储技术的5个阶段
- gensim学习之Dictionary
- gensim python 学习
- Gensim学习笔记
- 职业生涯5个必经阶段
- 职业生涯5个必经阶段
- 学习Java的16个阶段
- 职业生涯5个必经阶段,你在哪个阶段?
- 职业生涯5个必经阶段,你在哪个阶段?
- GENSIM
- ResultSet转Json
- leetcode fast slow pointer
- android 可滑动、点击切换的导航栏
- 全屏滑动返回
- CXF动态客户端调用webservice实例
- gensim-5个学习阶段
- 个人整理的web开发中常用的表单验证的正则表达式JS
- Connection reset by peer原因
- 埃拉托色尼筛选算法
- Valid Parentheses
- 有了这个列表,程序员不愁没练手的小项目了
- 基于模板匹配和遗传算法的人眼定位
- redis-cli 命令总结(转)
- PHP与Redis开发环境的简单配置