gensim的word2vector测试_基于中文wiki语料
来源:互联网 发布:blued交友软件 编辑:程序博客网 时间:2024/06/05 15:18
1.安装gensim
pip install gensim会报一个问题,可以直接忽略。
2.下载wiki语料
wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz23.用WikiExtractor抽取正文文本
nohup python WikiExtractor.py -cb 1000M -o extracted zhwiki-latest-pages-articles.xml.bz2
nohup.out
运行时长:15点08分到16点,约1h
看一下运行结果:
4.繁简体转换
这个opencc安装教程很强大!~
安装Opencc,方法如下:
$git clone https://github.com/BYVoid/OpenCC.git$cd OpenCC$make$make install编译报错,升级gcc:【具体参考gcc版本升级】
wget http: //ftp.gnu.org/gnu/gcc/gcc-4.8.0/gcc-4.8.0.tar.bz2<pre name="code" class="python">tar -jxvf gcc-4.8.0.tar.bz2<pre name="code" class="python">cd gcc-4.8.0./contrib/download_prerequisitescd ..mkdir gcc-build-4.8.0cd gcc-build-4.8.0../gcc-4.8.0/configure --enable-checking=release --enable-languages=c,c++ --disable-multilibmake -j4sudo make install
最后用新版替换旧版
update-alternatives --install /usr/bin/gcc gcc /usr/local/bin/i686-pc-linux-gnu-gcc 40
事实是,失败了(笑着活下去...)
发现了这个升级教程升级gcc!之后觉得刚才的自己蠢蠢的,升级成功!
重新编译安装OpenCC!~
还是报错(笑着活下去+1)...
libstdc++的问题,于是在/usr/local/lib64中找到了高版本的libstdc++.so.6.0.18文件,将它复制并链接,代码如下:
sudo cp /usr/local/lib64/libstdc++.so.6.0.20 /usr/lib64/$ sudo ln -s -f /usr/lib64/libstdc++.so.6.0.20 /usr/lib64/libstdc++.so.6结果还是报错:
opencc: error while loading shared libraries: libopencc.so.2: cannot open shared object file: No such file or directory于是去find这个文件,并建立链接文件:
sudo find / -name libopencc.so.2sudo ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2这下终于ok了,感动天感动地2333
【总结:这次装软件配环境心态比较好,比较细心耐心,恩!~】
运行example:
恩,下面就开始处理wiki语料的繁简体转换了:
参考opencc官方文档
0 0
- gensim的word2vector测试_基于中文wiki语料
- python中用gensim做wiki的中文数据word2vector处理
- 深度学习中word2vector测试语料text8
- gensim 中文语料训练 word2vec
- Wiki中文语料处理-python
- 用gensim的word2vector实现词嵌入
- 利用Python gensim基于中文语料建立LSA隐性语义模型
- 用gensim对中文维基百科语料上的word2Vec相似度计算实验
- 使用word2vec训练wiki中文语料
- 【python gensim使用】word2vec词向量处理中文语料
- 【python gensim使用】word2vec词向量处理中文语料
- Gensim-维基百科中文语料LDA,LSI实验记录
- 基于gensim模块的中文句子相似度计算工具
- python使用gensim训练搜狗语料的LDA
- 基于gensim的Doc2Vec简析
- 基于gensim的Doc2Vec简析
- 基于 Gensim 的 Word2Vec 实践
- 基于 Gensim 的 Word2Vec 实践
- app中webview显示网页,类似于微信里点击链接
- NEON下函数详解-------vcvt_f32_s32
- WinFrom窗体始终置顶
- JAVA程序操作hbase的Maven配置
- iOS 生成二维码
- gensim的word2vector测试_基于中文wiki语料
- 快速开发工具整理
- Spring AOP动态代理原理与实现方式
- Spark Streaming 数据产生与导入相关的内存分析 数据接收优化
- Shape--使用介绍 4 :椭圆形
- 判断字符串中是否有相同字母
- python装饰器由浅入深
- 关于堆内存和栈内存的简单描述
- B.沼跃鱼