网页编码的问题

来源:互联网 发布:pr cc 2015 mac 下载 编辑:程序博客网 时间:2024/04/29 19:22

用python 写爬虫的过程中,会遇到这样一些网页,它的html源码的编码和head中的charset的设置并不一致,用python的chardet模块进行检测会发现,结果中的‘confidence’并不是1,例如,可能是0.99. 这说明,该网页的编码可能有多种,遇到这样的情况,想要用charset的编码对网页的进行解码可能会出错。这里找到了一篇文章,对网页编码问题总结的很全面,我遇到的是声明为gb2312编码的网页,其中部分用的死其它编码,按照这篇文章的介绍,直接用GBK编码解码就可以了。

链接:【整理】关于HTML网页源码的字符编码(charset)格式(GB2312,GBK,UTF-8,ISO8859-1等)的解释 | 在路上


0 0
原创粉丝点击