Python2.7:UnicodeDecodeError :'gb2312' codec can't decode bytes:illegal multibyte sequence

来源:互联网 发布:2015伊戈达拉数据 编辑:程序博客网 时间:2024/05/23 02:00

Python版本:2.7
IDE:Pycharm2017
报错原因:爬虫一些古老的页面时,解码编码为UTF-8时发生乱码情况,使用GB2312解码进行UTF-8编码时爆发异常,无法完成编码。查询页面原始编码还恰好为GB2312。一头雾水之下开始百度,发现页面中如果少量包含GB2312之外的字符也是可以的,需要使用GB18030去解码,然后编码成UTF-8。具体代码如下:


string.decode('GB18030').encode('utf-8')

本文参照:Junkichan的博客

阅读全文
0 0
原创粉丝点击