Python获取网页编码的两种方法——requests、chardet

来源:互联网 发布:java中subtract 编辑:程序博客网 时间:2024/05/22 13:11

运行环境:Python3.6requests2.18.4

方法一:使用requests模块

In[2]: import requestsIn[3]: res = requests.get('http://baidu.com')In[4]: resOut[4]: <Response [200]>In[5]: res.encodingOut[5]: 'ISO-8859-1'

方法二:使用chardet模块

In[2]: import chardetIn[3]: from urllib.request import urlopenIn[4]: url = 'http://www.baidu.com'In[5]: html = urlopen(url).read()In[6]: print(chardet.detect(html)){'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}