Wiki中文语料处理-python

来源:互联网 发布:php的配置文件在哪里 编辑:程序博客网 时间:2024/06/03 21:29
昨天弄了一天的Wiki中文语料处理,发现有一点很重要,数据的完整性校验。
首先是最开始的压缩文件,下载完后要检验是否完整的方法就是解压是否能够成功,成功说明数据至少是完整的。接着是提取出来的txt文档,首先在python环境下要注意文档的编码格式,UTF-8和GBK差别还是有的。接着对于在python中打开文件的时候代码
output = open(outp,'w',encoding="utf-8",errors="ignore"),这里设置遇到错误选择忽视。
    接着处理提取出来的中文文档的,出来的是中文繁体txt,所以需要转换成为简体中文,别人用的是opencc,我是直接用
langconv.py和zh_wiki.py两个文件,具体百度就有很多例子如何使用,然后在转换。具体网址https://github.com/AimeeLee77/wiki_zh_word2vec请自行访问下载,里面有处理压缩文件的、处理简繁体转换。

阅读全文
0 0
原创粉丝点击