pandas入门

来源：互联网发布：雷神3知乎编辑：程序博客网时间：2024/06/04 20:00

简介

pandas学习网站：http://pandas.pydata.org/
pandas含有使数据更快更简单的高级数据结构和操作工具。pandas是基于NumPy构建的，让以NumPy为
中心的应用变得更加简单

pandas的数据结构

要使用pandas,首先就得熟悉它的两个主要数据结构：Series和DataFrame。虽然它们并不能解决所有问题，但它们为大多数应用提供了一种可靠的，易于使用的基础。
Series是一种类似于一维数组的对象，它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签（即索引）组成。仅有一组数据即可产生最简单的Series

In[4]: obj = Series([4, 6, -2 , 2]) In[5]: objOut[5]:0   41   62   -23   2

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值，字符串，布尔值等）。DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典(公用同一个索引)。跟吉他类似的数据结构相比(如R的data.fram)，DataFrame中面向行和面向列的操作基本上是平衡的。

这里写图片描述

可以输入给DataFrame构造器的数据

类型说明二维ndarray 数据矩阵，还可以传入行标和列标由数组，列表或元组组成的字典每个序列会变成DataFrame的一列。所有序列的长度必须相同 NumPy的结构化/记录数组类似于”有数组组成的字典” 由Series组成的字典每个Series会成为一列。如果没有显示指定索引，则各Series的索引会被合并成结构的行索引由字典组成的字典各内层字典会成为一列。键会被合并成结果的行索引，跟”由字典或Series的列表各项将会成为DataFrame的一行。字典键或Series索引的并集将会成为DataFrame的列表由列表或元组组成的列表类似于”二维ndarry” 另一个DataFrame 该DataFrame的索引将会被沿用，除非显示指定了其他索引 NumPy的MaskedArray 类似于”二维ndarray”的情况，只是掩码值在结果DataFrame会变成NA/缺失值