关于汉字的使用统计分析

来源:互联网 发布:sem高级优化师 编辑:程序博客网 时间:2024/05/17 12:07

在用Python做点关于互联网上的汉字使用统计分析。发现中文语料库好少,更新更少。只好先写个程序每天自动拉些站点的页面下来提取汉字了,家里的PC机也只好24小时开着,哪去搞个支持LIMP(PY3K)的不花钱的服务器呢?呵呵,上天啊,赐给我个精壮的服务器吧!大笑

找了个汉字读音清单文件,不过发现不全,从网上发现里面没有的汉字可惜读音没法补。

原创粉丝点击