chardet检测爬到的网页的编码

来源:互联网 发布:云计算的种类 编辑:程序博客网 时间:2024/06/03 17:36

下载地址 http://download.csdn.net/detail/mhsmie/9842280

使用方法,将压缩包解压,将里面的文件复制到python安装目录下的\Lib\site-packages下

import chardet  import urllib    #可根据需要,选择不同的数据  TestData = urllib.urlopen('http://www.baidu.com/').read()  print chardet.detect(TestData)    运行结果:  {'confidence': 0.99, 'encoding': 'GB2312'}  


0 0