word2vect实战
来源:互联网 发布:淘宝助理5.5版本下载 编辑:程序博客网 时间:2024/06/05 04:47
需要代码的可以联系我,python建议用anaconda,非常强大
安装gensim
pip install gensim
中文语料数据
英文语料数据
步骤
将xml的文件转换成txt文件
python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.cn.text
得到wiki.cn.text
繁体转成简体
opencc windows
1.进入opencc文件中
2.把简繁转换的源文件(例如是深蓝词库转换出来的无拼音纯简体字文档)放在D:\opencc目录下,假设是sc.txt
2.打开命令提示符,进入D:\opencc目录
3.键入opencc -i wiki.cn.text -o wiki.cn.text.jian -c t2s.json
(也可键入“opencc –help”参阅详细命令说明)
4.转换后的文档就是 wiki.cn.text.jian,同样在D:\opencc目录下
结巴分词
python separate_words.py wiki.cn.text.jian wiki.cn.text.jian.seq
得到wiki.cn.text.jian.seq
去除多余的其他字符
python remove_words.py wiki.cn.text.jian.seq wiki.cn.text.jian.removed
得到wiki.cn.text.jian.removed
训练模型
python train_word2vec_model.py wiki.cn.text.jian.removed wiki.en.text.jian.model wiki.en.text.jian.vector
其中wiki.en.text.jian.model是我们训练出来的模型
模型测试
python test_model.py
中文语料训练结果
英文语料训练结果
0 0
- word2vect实战
- word2vect训练
- 2017.05.23:SVM、TFIDF、word2vect
- 从零学习word2vect到Tensorflow(一)
- 实战
- 实战
- 实战
- 实战
- 实战
- 实战
- 实战
- 实战
- 实战
- 实战
- 实战
- 实战
- 实战
- 实战
- VS2010/MFC编程入门之三十六(工具栏:工具栏资源及CToolBar类)
- 最佳的学习时间是十年前,下一个是现在
- 沉浸式状态栏(SystemBarTint)的实现以及在线导入External Libraries
- Spring注解@Component、@Repository、@Service、@Controller区别
- 909422229__JavaScript数值转换的三种方式总结
- word2vect实战
- 基于物理着色
- Glide获取bitmap
- Uncaught ReferenceError: Ext is not defined
- VS2010/MFC编程入门之三十七(工具栏:工具栏的创建、停靠与使用)
- 回车(CR)与换行(LF), '\r'和'\n'的区别
- 我的maven项目出现java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderListener
- ## 关于RSA解密失败记录 ##
- QtConcurrent Qt处理多线程