2015-03-09数据加载、存储与文件格式(1)

来源：互联网发布：管家婆数据库编辑：程序博客网时间：2024/06/01 19:47

读写文本格式的数据
--read_csv 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号
--read_table 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符("\t")
--read_fwf 读取定宽列格式数据（也就是说，没有分隔符）
--read_clipboard 读取剪贴板中的数据，可以看做read_table的剪贴板版。在将网页转换为表格时很有用
import pandas as pd
from pandas import Series,DataFrame

cd L:\czz
!type ch06\ex1.csv
df=pd.read_csv('L:\czz\ch06\ex1.csv')
pd.read_table('L:\czz\ch06\ex1.csv',sep=',')

自定义列名
!type ch06\ex2.csv
pd.read_csv('ch06\ex2.csv',header=None)
pd.read_csv('ch06\ex2.csv',names=['a','b','c','d','message'])

把列当做索引
names=['a','b','c','d','message']
pd.read_csv('ch06\ex2.csv',names=names,index_col='message')

将多个列作为一个层次化索引
!type ch06\csv_mindex.csv
parsed=pd.read_csv('ch06\csv_mindex.csv',index_col=['key1','key2'])

用正则表达式作为分隔符
list(open('ch06\ex3.txt'))
result=pd.read_table('ch06\ex3.txt',sep='\s+') ??

跳过文件的指定行
!type ch06\ex4.csv
pd.read_csv('ch06\ex4.csv',skiprows=[0,2,3])

缺失值处理
!type ch06\ex5.csv
result=pd.read_csv('ch06\ex5.csv')
pd.isnull(result)
result=pd.read_csv('ch06\ex5.csv',na_values=['NULL'])
指定一组字符串用于表示缺失值
result=pd.read_csv('ch06\ex5.csv',na_values=['NULL','foo'])
为各列指定不同的NA标记值
sentinels={'message':['foo','NA'],'something':['two']}

pd.read_csv('ch06\ex5.csv',na_values=sentinels)

----------------------------------------

0 0