python urllib2爬取网页，编码问题

来源：互联网发布：linux 更新grub命令编辑：程序博客网时间：2024/05/16 12:23

使用urllib2爬取网页时，由于网页编码和系统的编码不统一，会导致乱码问题。

一般linux系统都使用utf-8编码，将爬取的网页内容转换成utf-8编码，统一编码类型。

1）检测网页编码类型

2）编码转换

import urllib2import chardetif __name__=="__main__":    url = "http://news.163.com/16/1030/20/C4LDRHVC000189FH.html"    req = urllib2.Request(url)    res = urllib2.urlopen(req)    html = res.read()    # 获取网页编码   char_type = chardet.detect(html)    print char_type    # 非utf-8码    if chardet["encoding"].lower() != 'utf-8':        html = unicode(html, "gbk").encode("utf8")    print html

编码类型gb2312的网页进行encode('utf-8')转码时，会出现错误。用gbk就会避免错误。

0 0

python urllib2爬取网页，编码问题
爬取网页乱码 Python urllib2库
python urllib2 爬取网页内容
python urllib爬取网页编码问题
urllib2 爬取网页信息
urllib2抓取网页出现中文编码问题
Python爬取网页的编码处理
爬取网页数据编码转换问题
python urllib, urllib2实现登陆和简单爬取网页(个人坑点笔记)
python使用requests爬取网页，遇到中文出现乱码的编码问题及解决
python requests爬取网页乱码问题
python使用requests爬网页编码问题
python爬取网页
Python 网页爬取
python使用urllib2抓取网页
python使用requests爬取网页，遇到中文出现遇到中文出现乱码的编码问题及解决乱码的编码问题及解决
python抓取网页编码问题
关于python网页编码问题
Javascript 多浏览器兼容性问题及解决方案
C/C++——指针做参数
Iterator、ListIterator、foreach、Enumeration
C语言--结构体内存计算规则
logback使用
python urllib2爬取网页，编码问题
intellij ieda下将空包展开显示
秒杀多线程-一个经典的多线程同步问题
商业模型
SVProgressHUD 的显示时间
ubuntu的系统装载hadoop spark等配件空间全部被占满了
Attention to Scale: Scale-Aware Semantic Image Segmentation论文阅读笔记
野指针和内存泄漏以及内存溢出总结
一个Toast报错问题 java.lang.IllegalStateException: View has already been added to the window manager.