python 学习013

来源:互联网 发布:linux nas 解决方案 编辑:程序博客网 时间:2024/06/06 02:18

python自动检测文档内码

python 内码检测模块chardet,是从firefox中移植的,判定正确率比较高。

下载地址:http://chardet.feedparser.org/

ubuntu下如果遇到ImportError: No module named chardet
可以通过如下的命令自动安装:

zhouhh@zhh64:~$ sudo apt-get install python-chardet

 

chardet.detect(buffer)会返回一个字典。

chardet.detect(rawdata)
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
其中confidence是可信度,encoding是编码。

 

下面是用法示例。

[python] view plaincopy
  1. #!/usr/bin/env python  
  2. # -*- coding: UTF-8 -*-  
  3. import chardet  
  4. import urllib  
  5. if __name__ == '__main__':  
  6.     mydet = {  
  7.         'SHIFT_JIS':'http://www.mankan.or.jp/',  
  8.         'GB2312':'http://g.cn/',  
  9.         'Big5':'http://www.programmer-club.com.tw/',  
  10.         'UTF8':'http://zh.wikipedia.org/'  
  11.         }  
  12.           
  13.     for url in mydet.values():  
  14.         print url  
  15.         rawdata = urllib.urlopen(url).read()  
  16.         enc = chardet.detect(rawdata)  
  17.         print enc['encoding']  
  18.       

 

执行:

python encdet.py
http://zh.wikipedia.org/
utf-8
http://www.mankan.or.jp/
SHIFT_JIS
http://g.cn/
GB2312
http://www.programmer-club.com.tw/
Big5


0 0
原创粉丝点击