爬取得到数据写入过文件时出现UnicodeEncodeError的错误

来源:互联网 发布:朱宸慧淘宝店经历 编辑:程序博客网 时间:2024/06/08 09:04

            最近刚接触lda主题模型,为了加深自己的理解,从网上爬取文本进行主题模型的构建和文本的主题预测。

           在获得文本,写入文件时,出现了以下问题:UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-10: ordinal not in range(128)。

          这篇博文(http://blog.csdn.net/overstack/article/details/11616615) 解决了我的问题。在我的代码里,我一开始获得文本用了gbk编码,写入时要转为utf-8编码。但是当我获取文本时直接用了utf-8编码,在界面输出时就出现了乱码的问题,我猜是可能原文本来设了utf-8。

阅读全文
0 0