pandas使用入门

来源:互联网 发布:拉比 婴儿床 知乎 编辑:程序博客网 时间:2024/06/01 11:06

pandas从文件读写数据

读取数据

  • 读取txt数据(read_table默认以tab键分割数据)

    Exp_matrix = pd.read_table(r’.\data\game_of_thrones_geneExp.txt’)

  • 读取csv数据(read_csv默认以逗号分割数据)

    Exp_matrix = pd.read_csv(r’.\data\game_of_thrones_geneExp.csv’)

  • 读取数量不定的空白符分割的txt文件

    Exp_matrix = pd.read_table(r’.\data\game_of_thrones_geneExp.txt’,sep=’\s+’)

  • 读取Excel文件数据

    xls_file = pd.ExcelFile(‘data.xls’)   #创建ExcelFile实例

    table = xls_file.parse( ‘Sheet1’)    #通过parse读取到DataFrame

(对于使用复杂分隔符或多字符串分隔符的文件,csv模块就无能为力了。这种情况下,就只能使用字符串的split方法或者正则表达式的re.split进行拆分和整理了)

读数据时关于行列名选项

  • header=None    #指定列名从0开始增长的数
  • names=[‘a’,’b’,’c’,’d’,’e’]    #用names参数指定列名
  • index_col=’e’    #用指定的列作为行名(index)

逐块读取文本文件

  • nrows = 5    #只读取文件前5行

其他参数

  • 使用skiprows跳过文件的某些行

    skiprows = [0,2,3]

写数据至文件

  • 写入csv文件

    result.to_csv(‘D:\data\out1.csv’)

写数据时关于行列名选项

  • index=False    #舍弃行名
  • header=False    #舍弃列名

其他参数

  • sep = ‘|’    #指定分隔符
  • na_rep = ‘NULL’    #指定缺失值表示符号
原创粉丝点击