gensim的word2vector测试_基于中文wiki语料

来源:互联网 发布:blued交友软件 编辑:程序博客网 时间:2024/06/05 15:18

1.安装gensim  

pip install gensim
会报一个问题,可以直接忽略。

2.下载wiki语料

wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
3.用WikiExtractor抽取正文文本

nohup python WikiExtractor.py -cb 1000M -o extracted zhwiki-latest-pages-articles.xml.bz2

nohup.out



运行时长:15点08分到16点,约1h

看一下运行结果:


4.繁简体转换

这个opencc安装教程很强大!~

安装Opencc,方法如下:

$git clone https://github.com/BYVoid/OpenCC.git$cd OpenCC$make$make install
编译报错,升级gcc:【具体参考gcc版本升级】

wget http: //ftp.gnu.org/gnu/gcc/gcc-4.8.0/gcc-4.8.0.tar.bz2<pre name="code" class="python">tar -jxvf  gcc-4.8.0.tar.bz2<pre name="code" class="python">cd gcc-4.8.0./contrib/download_prerequisitescd ..mkdir gcc-build-4.8.0cd  gcc-build-4.8.0../gcc-4.8.0/configure --enable-checking=release --enable-languages=c,c++ --disable-multilibmake -j4sudo make install

最后用新版替换旧版

update-alternatives --install /usr/bin/gcc gcc /usr/local/bin/i686-pc-linux-gnu-gcc 40

事实是,失败了(笑着活下去...)

发现了这个升级教程升级gcc!之后觉得刚才的自己蠢蠢的,升级成功!


重新编译安装OpenCC!~

还是报错(笑着活下去+1)...

libstdc++的问题,于是在/usr/local/lib64中找到了高版本的libstdc++.so.6.0.18文件,将它复制并链接,代码如下:

sudo cp /usr/local/lib64/libstdc++.so.6.0.20 /usr/lib64/$ sudo ln -s -f /usr/lib64/libstdc++.so.6.0.20 /usr/lib64/libstdc++.so.6
结果还是报错:

opencc: error while loading shared libraries: libopencc.so.2: cannot open shared object file: No such file or directory
于是去find这个文件,并建立链接文件:

sudo find / -name libopencc.so.2sudo ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2
这下终于ok了,感动天感动地2333

【总结:这次装软件配环境心态比较好,比较细心耐心,恩!~】

运行example:



恩,下面就开始处理wiki语料的繁简体转换了:

参考opencc官方文档








0 0
原创粉丝点击