[python爬虫]对html解析读取编码格式，统一转码为utf-8

来源：互联网发布：windows loader 2.4 编辑：程序博客网时间：2024/06/07 18:52

from urllib.request import urlopenimport  chardetresponse=urlopen(url,timeout=3)html_byte=response.read()chardit1 = chardet.detect(html_byte)file = open(PROJECT_NAME + '/' + str(ALLNUM) + '.html', 'wb')          html_string=html_byte.decode(chardit1['encoding']).encode('utf-8')file.write(html_string)file.close()

利用到了chardet中的detect方法，获取chardit1[‘encoding’]探知是何种类型的编码，对其进行译码，再编码。

0 0

[python爬虫]对html解析读取编码格式，统一转码为utf-8
编码格式要统一，Asp.net把UTF-8编码转换为GB2312编码
Python读取Unicode编码格式的文件（转换为UTF-8）
建议SRT字幕编码统一为Unicode格式(附UTF-8编码区别)
IDEA更改统一编码为utf-8
GBK编码数据转码为UTF-8格式
Python write 写文件编码格式指定为utf-8
python解析plist文件gb2312编码格式到utf-8编码格式
解决乱码！MyEclipse设置统一编码为UTF-8
eclipse设置编码格式为utf-8
改变cmd编码格式为utf-8
myeclipse配置编码格式为utf-8
eclipse指定编码格式为UTF-8
Eclipse 设置编码格式为UTF-8
studio 设置编码格式为 UTF-8
python设置编码格式utf-8
对utf-8编码的简单解析
对nginx中utf-8编码格式解析函数的理解
C++ 链表
OO概述
判断直线相交
【java web】 fullCalendar日历控件！【精】
C/C++预处理指令#define,#ifdef,#ifndef,#endif…
[python爬虫]对html解析读取编码格式，统一转码为utf-8
mysql 配置命令详解
Java数字，字符串常用方法
JVM原理讲解和调优
mui下拉刷新和上拉加载
Git学习与训练
前端两个页面之间传递值的方法
Js Switch语句
JSON