word2vect实战

来源:互联网 发布:淘宝助理5.5版本下载 编辑:程序博客网 时间:2024/06/05 04:47

需要代码的可以联系我,python建议用anaconda,非常强大

安装gensim

pip install gensim  

中文语料数据

英文语料数据

步骤

将xml的文件转换成txt文件

python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.cn.text

得到wiki.cn.text

繁体转成简体

opencc windows

1.进入opencc文件中

2.把简繁转换的源文件(例如是深蓝词库转换出来的无拼音纯简体字文档)放在D:\opencc目录下,假设是sc.txt

2.打开命令提示符,进入D:\opencc目录

3.键入opencc -i wiki.cn.text -o wiki.cn.text.jian -c t2s.json(也可键入“opencc –help”参阅详细命令说明)

4.转换后的文档就是 wiki.cn.text.jian,同样在D:\opencc目录下

结巴分词

python separate_words.py wiki.cn.text.jian wiki.cn.text.jian.seq 

得到wiki.cn.text.jian.seq

去除多余的其他字符

python remove_words.py wiki.cn.text.jian.seq wiki.cn.text.jian.removed

得到wiki.cn.text.jian.removed

训练模型

python train_word2vec_model.py wiki.cn.text.jian.removed wiki.en.text.jian.model wiki.en.text.jian.vector

其中wiki.en.text.jian.model是我们训练出来的模型

模型测试

python test_model.py

中文语料训练结果

英文语料训练结果

0 0
原创粉丝点击