python pandas.errors Buffer overflow caught

来源:互联网 发布:淘宝手机排名突然没了 编辑:程序博客网 时间:2024/04/28 15:01

python pandas.errors Buffer overflow caught - possible malformed input file.

pandas.read_csv遇到如上错误:缓冲区溢出
发现也是因为csv文件中单个item内有\r,即回车符

关于回车与换行

\r —回车符Carriage return,光标移动到行首
\n—换行符line feed, 光标移动到下一行New line

对于换行这个动作:
unix/linux下一般只有一个0x0A表示换行(“\n”),每行结尾只有“<换行>”,采用换行符LF表示下一行,即“\n”;
windows下一般都是0x0D和0x0A两个字符(“\r\n”),每行结尾是“<回车><换行>”,即“\r\n”;
苹果机(MAC OS系统)则采用回车符CR表示下一行(\r),每行结尾是“<回车>”,采用回车符CR表示下一行,即“\r”。

一个直接后果是:
Unix/Mac系统下的文件在Windows里打开的话,所有文字会变成一行;
Windows里的文件在Unix下打开的话,在每行的结尾会多车一个^M字符。

CR用符号’\r’表示, 十进制ASCII代码是13, 十六进制代码为0x0D;
LF使用’\n’符号表示, ASCII代码是10, 十六制为0x0A.

所以,
Windows平台上换行在文本文件中是使用 0x0D 、0x0A两个字节表示;
UNIX和苹果平台上换行则是使用0x0A或0x0D 一个字节表示.

由于dos风格的换行使用\r\n,把这样的文件上传到unix,有些版本的vi不能识别\r,所以vi显示时在行尾会出现^M出来,但是有些就能识别\r\n,正常显示回车换行。

Buffer overflow解决方案

pandas.read_csv()
添加参数lineterminator=”\n”,使用\n作为换行符!让跟\r没有关系就ok了。
可通过如下链接的例子测试\r,\n的影响
http://blog.csdn.net/leiting_imecas/article/details/68928553

原创粉丝点击