python 学习013
来源:互联网 发布:linux nas 解决方案 编辑:程序博客网 时间:2024/06/06 02:18
python自动检测文档内码
python 内码检测模块chardet,是从firefox中移植的,判定正确率比较高。
下载地址:http://chardet.feedparser.org/
ubuntu下如果遇到ImportError: No module named chardet
可以通过如下的命令自动安装:
zhouhh@zhh64:~$ sudo apt-get install python-chardet
chardet.detect(buffer)会返回一个字典。
chardet.detect(rawdata)
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
其中confidence是可信度,encoding是编码。
下面是用法示例。
- #!/usr/bin/env python
- # -*- coding: UTF-8 -*-
- import chardet
- import urllib
- if __name__ == '__main__':
- mydet = {
- 'SHIFT_JIS':'http://www.mankan.or.jp/',
- 'GB2312':'http://g.cn/',
- 'Big5':'http://www.programmer-club.com.tw/',
- 'UTF8':'http://zh.wikipedia.org/'
- }
- for url in mydet.values():
- print url
- rawdata = urllib.urlopen(url).read()
- enc = chardet.detect(rawdata)
- print enc['encoding']
执行:
python encdet.py
http://zh.wikipedia.org/
utf-8
http://www.mankan.or.jp/
SHIFT_JIS
http://g.cn/
GB2312
http://www.programmer-club.com.tw/
Big5
0 0
- python 学习013
- 【Python学习】Python 关键字
- Python学习----Python基础
- 【python】:python学习笔记
- Python:Python学习总结
- Python学习-Python数据类型
- Python学习
- 学习python
- python学习
- 学习Python
- python学习
- python学习
- python学习
- python 学习
- 学习python
- Python学习
- Python 学习
- python学习
- 《道德经》是什么?
- MySQL 备份与恢复
- shell脚本在cygwin下运行报错: $'\r': command not found
- 黑马程序员——面向对象及类
- JSP运行原理和九大隐式对象(又称内置对象)的说明
- python 学习013
- hadoop学习--HDFS
- Linux笔记(1)
- 【整理】uclibc,eglibc,glibc之间的区别和联系
- iOS voip 后台保持长连接
- 友元friend总结
- 《每周工作四小时》读书笔记
- Rotate Array(leetcode)
- Oracle12C详细安装图解