程序博客网 > php的配置文件在哪里

Wiki中文语料处理-python

来源：互联网发布：php的配置文件在哪里编辑：程序博客网时间：2024/06/03 21:29

昨天弄了一天的Wiki中文语料处理，发现有一点很重要，数据的完整性校验。

首先是最开始的压缩文件，下载完后要检验是否完整的方法就是解压是否能够成功，成功说明数据至少是完整的。接着是提取出来的txt文档，首先在python环境下要注意文档的编码格式，UTF-8和GBK差别还是有的。接着对于在python中打开文件的时候代码
output = open(outp,'w',encoding="utf-8",errors="ignore")，这里设置遇到错误选择忽视。

接着处理提取出来的中文文档的，出来的是中文繁体txt，所以需要转换成为简体中文，别人用的是opencc，我是直接用
langconv.py和zh_wiki.py两个文件，具体百度就有很多例子如何使用，然后在转换。具体网址https://github.com/AimeeLee77/wiki_zh_word2vec请自行访问下载，里面有处理压缩文件的、处理简繁体转换。

阅读全文

0 0

php的配置文件在哪里

php的配置文件在哪里

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子温润受死心离开温润清冷丞相受h 男主表面温润实则腹黑阴狠h 快穿之攻略温润竹马君子如玉温润而泽温润如玉的男主男主温润如玉形容少年温润美好的句子温润的近义词温润男主被囚禁温润少年的总攻之路txt 男主温润如玉的宠文谦谦君子温润如玉小龙女轻轻张开温润如玉温溜温溜准确位置图和作用温溜穴温灸温煦温煦依依作品闪婚老公太凶猛温煦依依温特软香温玉温玉按摩床温琼温琼林温病条辨鲍温病温病温病学温皇费德勒晋级温网决赛温网费德勒 2019温网王蔷晋级温网第二轮王蔷晋级温网温房网温哥华房产中文网网王之温少爷温职自主招生网温宿人才网温职院教务科研网