2015-03-09数据加载、存储与文件格式(1)

来源:互联网 发布:管家婆数据库 编辑:程序博客网 时间:2024/06/01 19:47
读写文本格式的数据
--read_csv 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号
--read_table 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符("\t")
--read_fwf 读取定宽列格式数据(也就是说,没有分隔符)
--read_clipboard 读取剪贴板中的数据,可以看做read_table的剪贴板版。在将网页转换为表格时很有用
import pandas as pd
from pandas import Series,DataFrame


cd L:\czz
!type ch06\ex1.csv
df=pd.read_csv('L:\czz\ch06\ex1.csv')
pd.read_table('L:\czz\ch06\ex1.csv',sep=',')


自定义列名
!type ch06\ex2.csv
pd.read_csv('ch06\ex2.csv',header=None)
pd.read_csv('ch06\ex2.csv',names=['a','b','c','d','message'])


把列当做索引
names=['a','b','c','d','message']
pd.read_csv('ch06\ex2.csv',names=names,index_col='message')


将多个列作为一个层次化索引
!type ch06\csv_mindex.csv
parsed=pd.read_csv('ch06\csv_mindex.csv',index_col=['key1','key2'])


用正则表达式作为分隔符
list(open('ch06\ex3.txt'))
result=pd.read_table('ch06\ex3.txt',sep='\s+')  ??


跳过文件的指定行
!type ch06\ex4.csv
pd.read_csv('ch06\ex4.csv',skiprows=[0,2,3])


缺失值处理
!type ch06\ex5.csv
result=pd.read_csv('ch06\ex5.csv')
pd.isnull(result)
result=pd.read_csv('ch06\ex5.csv',na_values=['NULL'])
指定一组字符串用于表示缺失值
result=pd.read_csv('ch06\ex5.csv',na_values=['NULL','foo'])
为各列指定不同的NA标记值
sentinels={'message':['foo','NA'],'something':['two']}

pd.read_csv('ch06\ex5.csv',na_values=sentinels)

----------------------------------------


----------------------------------------



0 0