pandas基础

来源:互联网 发布:心知天气中文 编辑:程序博客网 时间:2024/06/05 00:09

因为最近项目中总是会用到pandas来进行数据处理,每次都查找比较麻烦,现在自己总结一下pandas用法。

引入pandas

import pandas as pd  #起别名为pdimport numpy as np  #常用import matplotlib.plot as plt #画图用

读写文件

  • 读csv test = pd.read_csv('')
    • 还可以使用read_table进行读取
  • 写csv test.to_csv('')

数据结构

pandas 有两个主要的数据结构:SeriesDataFrame

Series

Series 是一个一维数组对象 ,类似于 NumPy 的一维 array。
它除了包含一组数据还包含一组索引,所以可以把它理解为一组带索引的数组
可以存入任一一种python的数据类型(integers, strings, floating point numbers, Python objects, etc.)
* 将 Python 数组转换成 Series 对象:

* 将 Python 字典转换成 Series 对象:

* 想要单独获取 Series 对象的索引或者数组内容的时候,可以使用 index 和 values 属性
* 对 Series 对象的运算(索引不变):

Series增删改查

  • 增加 series_4.drop('a')
  • 删除 series_4['a']=4
  • series_4[series_4>2]
    • 通过位置切片和标签切片查询数据:series_4[:2]

DataFrame

DataFrame 是一个表格型的数据结构。它提供有序的列和不同类型的列值。
例如将一个由 NumPy 数组组成的字典转换成 DataFrame 对象:

DataFrame 默认根据列名首字母顺序进行排序,想要指定列的顺序?传入一个列名的字典即可:

DataFrame 不仅可以以字典索引的方式获取数据,还可以以属性的方法获取,例如:

删除某一列

查看数据

1、 查看frame中头部和尾部的行

2、 显示索引、列和底层的numpy数据:

3、 describe()函数对于数据的快速统计汇总:

4、按值进行排序

l 选择

1、单独列 df['A']
2、切片 df[0:3]
3、通过标签来在多个轴上进行选择 df.loc[:,['A','B']]

通过位置进行选择

  • 通过数值进行选择 df.iloc[3:5,0:2]

l 布尔索引

1、 使用一个单独列的值来选择数据:

缺失值处理

参考博客

  1. 【原】十分钟搞定pandas
  2. 利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍
  3. 3.
原创粉丝点击