关于使用Python3进行网络爬虫的字符问题
来源:互联网 发布:5x兴趣社区淘宝商店 编辑:程序博客网 时间:2024/06/07 19:11
使用Python3进行网络爬虫的时候,对于某一些网页,使用utf-8编码是没有问题的。比如:
但是对于某些网页,如新浪,它会使用一些非UTF-8的控制字符(兼容的八位ISO/IEC 8859-1加上了从ISO/IEC 6429定义的从128到159的32个代码,位于0x80-0x9F。)import urllib.request
url = "https://www.baidu.com/"data = urllib.request.urlopen(url).read()reqstr = data.decode('utf-8')
如果我们使用上述程序去“爬”新浪体育
url = "http://sports.sina.com.cn/"
就会得到如下的错误:UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte
这里的 0x8b 就是控制符:PLD,Partial Line Forward(部分行前移)
为了解决这个问题,大家可以使用兼容控制符的ISO-8859-1编码(即latin-1)解决这个问题。
reqstr = data.decode('latin-1')
最后应当注意的是,我们也应该在程序开头申明# coding:latin-1
1 0
- 关于使用Python3进行网络爬虫的字符问题
- 基于python3的网络爬虫
- python3爬虫的编码问题
- python3使用urllib模块制作网络爬虫
- Python3网络爬虫:使用Cookie-模拟登陆
- 使用WebDriver进行网络爬虫
- Python3网络爬虫(一):利用urllib进行简单的网页抓取
- Python3网络爬虫(一):利用urllib进行简单的网页抓取
- Python3网络爬虫(一):利用urllib进行简单的网页抓取
- Python3网络爬虫(3):Python3使用Cookie-模拟登陆
- 使用larbin网络爬虫的问题
- 编写简单的网络爬虫 (python3.2)
- python3网络爬虫框架
- 我的第一个Python3 网络爬虫 百度百科爬虫
- 【笔记】3、初学python3网络爬虫——urllib库的使用
- 【笔记】4、初学python3网络爬虫——Requests库的使用
- 【笔记】5、初学python3网络爬虫——正则表达式的基本使用
- 关于网络爬虫出现configure build path 问题的解决
- SecureCRT配置
- 程序3——二叉树的前中后层序遍历
- 根据文件相对路径获得文件的绝对路径(windows)
- 被忽略却很有用的html标签
- java 集合类
- 关于使用Python3进行网络爬虫的字符问题
- Vim技巧
- 《计算机操作系统》总结三(内存管理)
- 汽车年检,备忘一下,估计2年以后才有用了
- Android studio 安装 环境搭建
- 解决Xshell显示中文乱码的问题
- 实现RTP协议的H.264视频传输系统
- cgi学习笔记
- ambari安装以及基于ambari的hadoop集群搭建