python读取文本文档处理不可见字符

来源:互联网 发布:希捷媒体同步软件 编辑:程序博客网 时间:2024/05/29 17:49

某些软件,如notepad,在保存一个以UTF-8编码的文件时,会在文件开始的地方插入三个不可见的字符(0xEF 0xBB 0xBF,即BOM)。

因此我们在读取时需要自己去掉这些字符,python中的codecs module定义了这个常量:

# coding=gbkimport codecsdata = open("Test.txt").read()if data[:3] == codecs.BOM_UTF8:data = data[3:]print data.decode("utf-8")

//---------------------------------

通用格式:

#coding:utf-8import codecsfile_path=unicode(r'路径','utf-8')  #路径中包含中文的话,需要使用unicode进行处理nation_dict=open(file_path,'r').read()#打开文件,并且读入,变成字符串if nation_dict[:3]==codecs.BOM_UTF8:   #处理不可见字符,关键用到codecs包,    nation_dict=nation_dict[3:]


 

引用于:http://www.jb51.net/article/26543.htm

 

0 0
原创粉丝点击