word2vect实战

来源：互联网发布：淘宝助理5.5版本下载编辑：程序博客网时间：2024/06/05 04:47

需要代码的可以联系我,python建议用anaconda，非常强大

安装gensim

pip install gensim

中文语料数据

英文语料数据

python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.cn.text

得到wiki.cn.text

1.进入opencc文件中

2.把简繁转换的源文件（例如是深蓝词库转换出来的无拼音纯简体字文档）放在D:\opencc目录下，假设是sc.txt

2.打开命令提示符，进入D:\opencc目录

3.键入opencc -i wiki.cn.text -o wiki.cn.text.jian -c t2s.json（也可键入“opencc –help”参阅详细命令说明）

4.转换后的文档就是 wiki.cn.text.jian，同样在D:\opencc目录下

python separate_words.py wiki.cn.text.jian wiki.cn.text.jian.seq

得到wiki.cn.text.jian.seq

python remove_words.py wiki.cn.text.jian.seq wiki.cn.text.jian.removed

得到wiki.cn.text.jian.removed

python train_word2vec_model.py wiki.cn.text.jian.removed wiki.en.text.jian.model wiki.en.text.jian.vector

其中wiki.en.text.jian.model是我们训练出来的模型

python test_model.py

0 0