python urllib2爬取网页,编码问题
来源:互联网 发布:linux 更新grub命令 编辑:程序博客网 时间:2024/05/16 12:23
使用urllib2爬取网页时,由于网页编码和系统的编码不统一,会导致乱码问题。
一般linux系统都使用utf-8编码,将爬取的网页内容转换成utf-8编码,统一编码类型。
1)检测网页编码类型
2)编码转换
import urllib2import chardetif __name__=="__main__": url = "http://news.163.com/16/1030/20/C4LDRHVC000189FH.html" req = urllib2.Request(url) res = urllib2.urlopen(req) html = res.read() # 获取网页编码 char_type = chardet.detect(html) print char_type # 非utf-8码 if chardet["encoding"].lower() != 'utf-8': html = unicode(html, "gbk").encode("utf8") print html
编码类型gb2312的网页进行encode('utf-8')转码时,会出现错误。用gbk就会避免错误。
0 0
- python urllib2爬取网页,编码问题
- 爬取网页乱码 Python urllib2库
- python urllib2 爬取网页内容
- python urllib爬取网页编码问题
- urllib2 爬取网页信息
- urllib2抓取网页出现中文编码问题
- Python爬取网页的编码处理
- 爬取网页数据 编码转换问题
- python urllib, urllib2实现登陆和简单爬取网页(个人坑点笔记)
- python使用requests爬取网页,遇到中文出现乱码的编码问题及解决
- python requests爬取网页乱码问题
- python使用requests爬网页编码问题
- python爬取网页
- Python 网页爬取
- python使用urllib2抓取网页
- python使用requests爬取网页,遇到中文出现遇到中文出现乱码的编码问题及解决乱码的编码问题及解决
- python抓取网页编码问题
- 关于python网页编码问题
- Javascript 多浏览器兼容性问题及解决方案
- C/C++——指针做参数
- Iterator、ListIterator、foreach、Enumeration
- C语言--结构体内存计算规则
- logback使用
- python urllib2爬取网页,编码问题
- intellij ieda下将空包展开显示
- 秒杀多线程-一个经典的多线程同步问题
- 商业模型
- SVProgressHUD 的显示时间
- ubuntu的系统 装载hadoop spark等配件 空间全部被占满了
- Attention to Scale: Scale-Aware Semantic Image Segmentation论文阅读笔记
- 野指针和内存泄漏以及内存溢出总结
- 一个Toast报错问题 java.lang.IllegalStateException: View has already been added to the window manager.