python字符编码的判断

来源:互联网 发布:网络七层协议工作原理 编辑:程序博客网 时间:2024/05/16 18:26

       最近需要使用字符串来解决一些问题,中间牵涉到使用url,而url的编码方式往往又是不同于平时所使用的编码方式的,这里就需要检测一下url所使用的编码方式,然后将url的编码方式转换为所需要的编码方式,然后再参与后续的运算

      使用python自带的字符串编码方式判断函数isinstance(字符串,编码方式),可以判断字符串string是否为给定的编码方式。

      也可以使用python的一个常用的模块chardet来进行检测,使用方法也是很简单的,实地操作了一下感觉还是很不错的

chardet的安装也是很简单的:pip install chardet即可

直接上代码

# !/usr/bin/python
#-*-coding:utf-8-*-




import chardet


def detection(path = 'dataset/black.txt'):
f = open(path)
f_list = f.readlines()
result = []
for url in f_list:
url_dict = {}
url_dict = chardet.detect(url)
if url_dict['encoding'] != 'ascii':
print url, url_dict
result.append(url)
print 'result is :', result
#print url, chardet.detect(url)





detection('dataset/all.txt')


学习后感觉很棒


0 0
原创粉丝点击