[python爬虫]对html解析读取编码格式,统一转码为utf-8
来源:互联网 发布:windows loader 2.4 编辑:程序博客网 时间:2024/06/07 18:52
from urllib.request import urlopenimport chardetresponse=urlopen(url,timeout=3)html_byte=response.read()chardit1 = chardet.detect(html_byte)file = open(PROJECT_NAME + '/' + str(ALLNUM) + '.html', 'wb') html_string=html_byte.decode(chardit1['encoding']).encode('utf-8')file.write(html_string)file.close()
利用到了chardet中的detect方法,获取chardit1[‘encoding’]探知是何种类型的编码,对其进行译码,再编码。
0 0
- [python爬虫]对html解析读取编码格式,统一转码为utf-8
- 编码格式要统一,Asp.net把UTF-8编码转换为GB2312编码
- Python读取Unicode编码格式的文件(转换为UTF-8)
- 建议SRT字幕编码统一为Unicode格式(附UTF-8编码区别)
- IDEA更改统一编码为utf-8
- GBK编码数据转码为UTF-8格式
- Python write 写文件编码格式指定为utf-8
- python解析plist文件gb2312编码格式到utf-8编码格式
- 解决乱码!MyEclipse设置统一编码为UTF-8
- eclipse设置编码格式为utf-8
- 改变cmd编码格式为utf-8
- myeclipse配置编码格式为utf-8
- eclipse指定编码格式为UTF-8
- Eclipse 设置编码格式为UTF-8
- studio 设置编码格式为 UTF-8
- python设置编码格式utf-8
- 对utf-8编码的简单解析
- 对nginx中utf-8编码格式解析函数的理解
- C++ 链表
- OO概述
- 判断直线相交
- 【java web】 fullCalendar日历控件!【精】
- C/C++预处理指令#define,#ifdef,#ifndef,#endif…
- [python爬虫]对html解析读取编码格式,统一转码为utf-8
- mysql 配置命令详解
- Java数字,字符串常用方法
- JVM原理讲解和调优
- mui下拉刷新和上拉加载
- Git学习与训练
- 前端两个页面之间传递值的方法
- Js Switch语句
- JSON