chardet==>探别编码问题

来源:互联网 发布:ipad pro app 知乎 编辑:程序博客网 时间:2024/06/01 01:34

chardet是一个关于探别字符为何种编码的python库,需要额外安装;
可以通过:pip install chardet 安装。


简单演示下如何使用:

输入:

import chardetimport urllibtest = urllib.urlopen('http://www.baidu.com/').read()chardet.detect(test)

输出:

{'confidence': 0.99, 'encoding': 'utf-8'}

即有编码格式有99%的可能性为utf-8



如果文件过大,可以通过如下高级方式进行使用chardet:

import urllibfrom chardet.universaldetector import UniversalDetectordetector = UniversalDetector()test = urllib.urlopen('http://www.baidu.com/')for line in test.readlines():    detector.feed(line)    if detector.done:        breakdetector.close()#1 切记这两个一定要执行close(),否则可能会出现识别不出test.close()print detector.result
1 0
原创粉丝点击