关于读取文件遇到UnicodeDecodeError

来源:互联网 发布:自制app软件 编辑:程序博客网 时间:2024/06/05 22:49

更改文件编码或更改译码方式

问题:

pandas在读取含有中文字符的csv文件时报错,因为python默认的编码方式是‘ utf-8’,而这个文件的编码是‘gbk’。

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb1 in position 0: invalid start byte

解决办法:

data=pd.read_table('province.csv', sep=',', names=cnames, encoding='gbk')

将译码方式设置为encoding='gbk'

这里,sep=',',因为 csv 文件是逗号分割文件。names=cnames, cnames是设置的列的名字。

其他注意:

保存问件时,为了后续处理方便,可以统一用utf-8编码。

更改txt,csv文件的编码方式:

  • 用记事本打开,另存为,右下角选择编码方式。

  • sublime text3 也可以更改编码方式。可以将sublime text3的默认编码方式设置为utf-8。

阅读全文
0 0
原创粉丝点击