genfromtxt对文件进行数据处理

来源:互联网 发布:python split 多空格 编辑:程序博客网 时间:2024/06/04 19:24

刚刚接触这个numpy下的函数,感觉以后可以用来处理数据文本,特此记录。

示例数据:文件名称(test.csv)

user_id,item_id,behavior_type,user_geohash,item_category,time99512554,37320317,3,94gn6nd,9232,2014-11-26 209909811,266982489,1,,3475,2014-12-02 2398692568,27121464,1,94h63np,5201,2014-11-19 1396089426,114407102,1,949g5i3,836,2014-11-26 0790795949,402391768,1,94h6dlp,3046,2014-12-09 21

用如下代码将数据完全提取出来:

data = np.genfromtxt(filename,delimiter = ',',skip_header=1,dtype=None)

如果只去特定的列可以用:

data = np.genfromtxt(filename,usecols=(2,5),delimiter = ',',skip_header=1,dtype=None)

数据比较多的时候尽量不要用readlines函数,会发生错误的。

MemoryError

*参考:[numpy官方文档]*(http://docs.scipy.org/doc/numpy/reference/generated/numpy.genfromtxt.html)

1 0