Python网页爬虫之中文乱码
来源:互联网 发布:mac安装office2013 编辑:程序博客网 时间:2024/06/05 15:43
Python是个好工具,但是也有其固有的一些缺点。最近在学习网页爬虫时就遇到了这样一种问题,中文网站爬取下来的内容往往中文显示乱码。看过我之前博客的同学可能知道,之前爬取的一个学校网页就出现了这个问题,但是当时并没有解决,这着实成了我一个心病。这不,刚刚一解决就将这个方法公布与众,大家一同分享。
首先,我说一下Python中文乱码的原因,Python中文乱码是由于Python在解析网页时默认用Unicode去解析,而大多数网站是utf-8格式的,并且解析出来之后,python竟然再以Unicode字符格式输出,会与系统编码格式不同,导致中文输出乱码,知道原因后我们就好解决了。下面上代码,实验对象仍是被人上了无数遍的百度主页~
# -*- coding: utf-8 -*-import urllib2import reimport requestsimport sysimport urllib#设置编码reload(sys)sys.setdefaultencoding('utf-8')#获得系统编码格式type = sys.getfilesystemencoding()r = urllib.urlopen("http://www.baidu.com")#将网页以utf-8格式解析然后转换为系统默认格式a = r.read().decode('utf-8').encode(type)print a最后输出效果,中文完美输出
0 0
- Python网页爬虫之中文乱码
- python 爬虫中文乱码
- 自学Python八 爬虫大坑之网页乱码
- python 爬虫中文乱码问题
- python学习之 requests爬虫导致的中文乱码
- BeautifulSoup中文乱码解决问题 python 爬虫 乱码
- BeautifulSoup中文乱码解决问题 python 爬虫 乱码
- 爬虫phantomjs爬取网页中文乱码
- node 爬虫解决中文网页乱码
- python抓取中文网页乱码
- python 爬虫遇到的网页乱码问题
- python 中文乱码问题 网络爬虫
- python之中文乱码
- python第一个爬虫小程序以及遇到问题解决(中文乱码)+批量爬取网页并保存至本地
- nutch-1.8爬虫网页中文乱码的处理
- python抓网页中文乱码问题
- python抓取中文网页显示乱码问题
- python 网页抓取中的中文乱码问题解决
- numpy.tile()
- 计算机三级--操作系统的存储体系(详解)
- Spring中@Autowired注解、@Resource注解的区别
- Java 工程师成神之路
- 1002: 级数求和
- Python网页爬虫之中文乱码
- [NOI97] 卫星覆盖 - 矩形切割(立方体切割)
- 【设计模式】《Head First 设计模式》读书笔记——迭代器模式
- UVA11093:Just Finish it up(环形跑道)
- Ubuntu配置DNS
- Linux下poky编译2
- Effective Java读书笔记四:通用程序设计
- Access2016学习3
- 1003: 选数