Python编码检测 chardet 效果不如 UnicodeDammit
来源:互联网 发布:ov7670 python 编辑:程序博客网 时间:2024/05/21 07:47
实际例子还是上一篇文章的
http://www.angenechemical.com/productshow/AGN-PC-0JCLT7.html
在scrapy中,记录下response的body的时候,self.logger.error(response.body) 会报无数的错
经过手工尝试
decode("gbk"),
decode("gb2312"),
encode("utf-8").strip()
都不行后,最后尝试出了, decode("windows-1252") 有效,编码是windows-1252
为此甚至还更改了 logging模块emit的源码。因为logging的emit 直接上来就是stram.write(fs%msg) 不行的话再来encode("utf-8")
那么如果其他不能encode("utf-8")的时候,还是需要先一步 decode(编码的)
在这里引入 chardet 检测结果是
import chardetprint "detect charset : "+str(chardet.detect(msg))detect charset : {'confidence': 0.99, 'language': 'Chinese', 'encoding': 'GB2312'
很明显,chardet 给出的gb2312 是明显错误的,因为我们decode("gb2312") 一样会出错不成功。
引入 UnicodeDammit 检测,
from bs4 import UnicodeDammitdammit = UnicodeDammit(msg)print "dammit.original_encoding", dammit.original_encodingdammit.original_encoding windows-1252
UnicodeDammit 给出电费windows-1252 毫无疑问是正确的结果,我们预期的结果
关于UnicodeDammit, UnicodeDammit 是bs4里面的(哈哈哈...没想到bs4还有这个大杀器),为什么UnicodeDammit这么好用,因为UnicodeDammit 已经综合考虑了chardet 的结果,
chrdet 是学习了大量的文本,然后再来算出最有可能的编码方式
UnicodeDammit 是
1. 先从申明的编码方式尝试解析
2. 尝试从开头的几个字符开始解析
3. chardet 检测出来的推荐编码
4. utf-8 解析
5. windows-1252 解析
使用 UnicodeDammit 的同时,其实也经过了chardet的检测,同时它还加上了windows-1252的尝试解析,如果连windows-1252解析还无效的话,那就真没救了~~~
UnicodeDammit 文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/#unicode-dammit
编码说明:
https://stackoverflow.com/questions/436220/determine-the-encoding-of-text-in-python
- Python编码检测 chardet 效果不如 UnicodeDammit
- Python字符编码检测 -- chardet
- python编码检测模块chardet
- python字符编码检测——chardet
- python chardet模块 检测文档编码
- Python使用chardet检测字符编码
- Python之动态检测编码chardet
- Python基础 检测多种语言编码 chardet
- 01-chardet编码检测
- 17.python字符编码检测——chardet
- 如何用Python中的chardet去检测字符编码类型
- Python之检测文件的字符编码(chardet)
- Python chardet 字符编码判断
- python-字符编码库chardet
- Python chardet 字符编码判断
- python chardet模块查看编码
- [python3.x] 利用chardet检测网页编码
- python2.7:文件编码检测chardet 详解
- java实现ssh登录执行shell命令及一些问题。
- 生日蛋糕!
- [P1731]生日蛋糕
- jQ 排序集合
- Java与JSON(一)之入门总结
- Python编码检测 chardet 效果不如 UnicodeDammit
- ASP.NET加密和解密Web.config中数据库连接字符串
- 折腾gcc/g++链接时.o文件及库的顺序问题(转)
- uva 10883
- 纸醉金迷的香槟野性新思潮
- 第24章 定义数据库性能
- 互联网行业的一天——摔!这和说好的不一样
- 华丽的HTML5图表 可展示实时数据
- SQL 语句大全