python pandas IO tools 之read_csv文件读写参数详解

来源：互联网发布：快传软件下载编辑：程序博客网时间：2024/06/08 20:00

python pandas IO tools 之csv文件读写

英文原文：pandas IO tools

读取csv文件：pd.read_csv(),写入csv文件:pd.to_csv()
pandas还可以读取一下文件：
read_csv,
read_excel,
read_hdf,
read_sql,
read_json,
read_msgpack (experimental),
read_html,
read_gbq (experimental),
read_stata,
read_sas,
read_clipboard,
read_pickle;
相应的写入：
to_csv,
to_excel,
to_hdf,
to_sql,
to_json,
to_msgpack (experimental),
to_html,
to_gbq (experimental),
to_stata,
to_clipboard,
to_pickle.

常用参数的读取csv文件

import pandas as pdobj=pd.read_csv('f:/ceshi.csv')print objprint type(obj)print obj.dtypes

Unnamed: 0 c1 c2 c3
0 a 0 5 10
1 b 1 6 11
2 c 2 7 12
3 d 3 8 13
4 e 4 9 14

obj_2=pd.read_csv('f:/ceshi.csv',header=None,names=range(2,5))print obj_2

  2   3   40  c1  c2  c31   0   5  102   1   6  113   2   7  124   3   8  135   4   9  14

header=None时，即指明原始文件数据没有列索引，这样read_csv为自动加上列索引，除非你给定列索引的名字。

obj_2=pd.read_csv('f:/ceshi.csv',header=0,names=range(2,5))print obj_2

 2  3   40  0  5  101  1  6  112  2  7  123  3  8  134  4  9  14

header=0，表示文件第0行（即第一行，Python，索引从0开始）为列索引，这样加names会替换原来的列索引。

obj_2=pd.read_csv('f:/ceshi.csv',index_col=0)print obj_2

c1  c2  c3a   0   5  10b   1   6  11c   2   7  12d   3   8  13e   4   9  14

obj_2=pd.read_csv('f:/ceshi.csv',index_col=[0,2])print obj_2

     c1  c3  c2        a 5    0  10b 6    1  11c 7    2  12d 8    3  13e 9    4  14

index_col为指定数据中那一列作为Dataframe的行索引，也可以可指定多列，形成层次索引，默认为None,即不指定行索引，这样系统会自动加上行索引（0-）

obj_2=pd.read_csv('f:/ceshi.csv',index_col=0,usecols=[0,1,2,3])print obj_2

 c1  c2  c3a   0   5  10b   1   6  11c   2   7  12d   3   8  13e   4   9  14

obj_2=pd.read_csv('f:/ceshi.csv',index_col=0,usecols=[1,2,3])print obj_2

    c2  c3c1        0    5  101    6  112    7  123    8  134    9  14

usecols:可以指定原数据集中，所使用的列。在本例中，共有4列，当usecols=[0,1,2,3]时，即选中所有列，之后令第一列为行索引，当usecols=[1,2,3]时，即从第二列开始，之后令原始数据集的第二列为行索引。

obj_2=pd.read_csv('f:/ceshi.csv',index_col=0,nrows=3)print obj_2

 c1  c2  c3a   0   5  10b   1   6  11c   2   7  12

nrows：可以给出从原始数据集中的所读取的行数，目前只能从第一行开始到nrows行。

datetime handing 数据中日期处理

obj_3=pd.read_csv('f:/ceshi_date.csv',index_col=0,)print obj_3print type(obj_3.index)

 A  B  Cdate                      20090101           a  2  320090102           b  3  420090103           c  4  5<class 'pandas.indexes.numeric.Int64Index'>```

obj_3=pd.read_csv(‘f:/ceshi_date.csv’,index_col=0,parse_dates=True)
print obj_3
print type(obj_3.index)

A B C
date
2009-01-01 a 2 3
2009-01-02 b 3 4
2009-01-03 c 4 5

parse_dates=True:可令字符串解析成时间格式。

data=’date,value,cat\n1/6/2000,5,a\n2/6/2000,10,b\n3/6/2000,15,c’
print data

date,value,cat
1/6/2000,5,a
2/6/2000,10,b
3/6/2000,15,c
“`

阅读全文

0 0