爬虫编码问题
来源:互联网 发布:阿里云创建快照 编辑:程序博客网 时间:2024/06/14 00:24
在获取网页时会遇到各种各样的编码问题,我们有不同的编码方式,但是在使用BeautifulSoup时,他有自动检测编码的功能,但是这样遍历一遍,知道编码也是一个很慢的过程。而且依然有可能出错。因此我们可以在实例化BeautifulSoup时,加上编码规则,这样就可避免错误。
首先我们先查看爬虫的页面的编码方式,使用下列代码即可获得
url = 'http://www.baidu.com'>>> res = requests.get(url)>>> soup = bs(res.content,'lxml')>>> soup.original_encoding'utf-8'>>> soup = bs(res.content,'lxml',from_encoding = 'utf-8')>>> soup<!DOCTYPE html><!--STATUS OK--><html> <head><meta content="text/html;charset=utf-8" http-equiv="content-type"/><me
输出编码时,可以调用 BeautifulSoup 对象或任意节点的 encode() 方法,就像Python的字符串调用 encode() 方法一样:
soup.p.encode("latin-1")# '<p>Sacr\xe9 bleu!</p>'soup.p.encode("utf-8")# '<p>Sacr\xc3\xa9 bleu!</p>'
引入解决编码问题
from bs4 import UnicodeDammit>>> dammit = UnicodeDammit("Sacr\xc3\xa9 bleu!")>>> print(dammit.unicode_markup)Sacré bleu!>>> dammit.original_encoding
阅读全文
0 0
- 爬虫编码问题
- nodejs爬虫编码问题
- 爬虫编码问题
- python3爬虫的编码问题
- 爬虫学习(一):编码问题
- 爬虫遇见的编码问题汇总
- Python中的爬虫输出编码问题
- Python爬虫的一个编码问题
- Python3实现简单爬虫及一些编码问题
- nodejs单页面爬虫(二)--解决编码问题
- nodejs爬虫程序解决gbk等中文编码问题
- Cpdetector识别网页编码 解决Java爬虫乱码问题
- python爬虫获取编码时中文乱码问题
- 爬虫编码解决1
- 爬虫获取网页编码
- 做爬虫时候遇到的中文字符编码问题(Python)
- 当Python在gbk编码上遇到pycharm,爬虫问号乱码问题
- 【爬虫】python解决QQ邮箱查询接口的中文编码问题
- wifi(rtl8188eu)移植及调试笔记
- MySQL数据库优化
- Android 彻底弄懂Activity四大启动模式 和taskAffinity属性详解 intentFlag 图文解析
- 关于轮播图中Handler迭代延时调用自己应用退出无法销毁问题
- reduce函数python
- 爬虫编码问题
- 循环的总结
- Xfce安装与移植
- 关于c++中的scanf函数中的一些不易发现的注意点
- selenium + python 基础
- JS函数
- 指数循环节 处理A^B 问题 Super A^B mod C + Calculation
- [STL]set实用用法
- HDU-1213 How Many Tables