Python中的结构化数据分析利器-Pandas简介

来源:互联网 发布:miui7不兼容的软件 编辑:程序博客网 时间:2024/05/22 14:04

来自:http://cloga.info/python/%E6%95%B0%E6%8D%AE%E7%A7%91%E5%AD%A6/2013/09/17/pandas_intro/#wat_e_0aa46b6f-c147-465c-b3c9-d0700a9cf7a1_zss_

Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。panel data是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。 这篇文章会介绍一些Pandas的基本知识,偷了些懒其中采用的例子大部分会来自官方的10分钟学Pandas。我会加上个人的理解,帮助大家记忆和学习。

Pandas中的数据结构

Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而Array和Series中则只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。

Time- Series:以时间为索引的Series。

DataFrame:二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。以下的内容主要以DataFrame为主。

Panel :三维的数组,可以理解为DataFrame的容器。<!-- more -->

创建DataFrame

首先引入Pandas及Numpy:

import pandas as pdimport numpy as np

官方推荐的缩写形式为pd,你可以选择其他任意的名称。 DataFrame是二维的数据结构,其本质是Series的容器,因此,DataFrame可以包含一个索引以及与这些索引联合在一起的Series,由于一个Series中的数据类型是相同的,而不同Series的数据结构可以不同。因此对于DataFrame来说,每一列的数据结构都是相同的,而不同的列之间则可以是不同的数据结构。或者以数据库进行类比,DataFrame中的每一行是一个记录,名称为Index的一个元素,而每一列则为一个字段,是这个记录的一个属性。 创建DataFrame有多种方式:

  • 以字典的字典或Series的字典的结构构建DataFrame,这时候的最外面字典对应的是DataFrame的列,内嵌的字典及Series则是其中每个值。
d = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']),'two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}df = pd.DataFrame(d)

可以看到d是一个字典,其中one的值为Series有3个值,而two为Series有4个值。由d构建的为一个4行2列的DataFrame。其中one只有3个值,因此d行one列为NaN(Not a Number)--Pandas默认的缺失值标记。

  • 从列表的字典构建DataFrame,其中嵌套的每个列表(List)代表的是一个列,字典的名字则是列标签。这里要注意的是每个列表中的元素数量应该相同。否则会报错:
ValueError: arrays must all be same length
  • 从字典的列表构建DataFrame,其中每个字典代表的是每条记录(DataFrame中的一行),字典中每个值对应的是这条记录的相关属性。
d = [{'one' : 1,'two':1},{'one' : 2,'two' : 2},{'one' : 3,'two' : 3},{'two' : 4}]df = pd.DataFrame(d,index=['a','b','c','d'],columns=['one','two'])df.index.name='index'

以上的语句与以Series的字典形式创建的DataFrame相同,只是思路略有不同,一个是以列为单位构建,将所有记录的不同属性转化为多个Series,行标签冗余,另一个是以行为单位构建,将每条记录转化为一个字典,列标签冗余。使用这种方式,如果不通过columns指定列的顺序,那么列的顺序会是随机的。

个人经验是对于从一些已经结构化的数据转化为DataFrame似乎前者更方便,而对于一些需要自己结构化的数据(比如解析Log文件,特别是针对较大数据量时),似乎后者更方便。创建了DataFrame后可以通过index.name属性为DataFrame的索引指定名称。

DataFrame转换为其他类型

df.to_dict(outtype='dict')

outtype的参数为‘dict’、‘list’、‘series’和‘records’。 dict返回的是dict of dict;list返回的是列表的字典;series返回的是序列的字典;records返回的是字典的列表

查看数据

head和tail方法可以显示DataFrame前N条和后N条记录,N为对应的参数,默认值为5。这通常是拿到DataFrame后的第一个命令,可以方便的了解数据内容和含义。

df.head()
 onetwoindex  a11b22c33dNaN4

4 rows × 2 columns

R中的对应函数:

head(df)
df.tail()
 onetwoindex  a11b22c33dNaN4

4 rows × 2 columns

index(行)和columns(列)属性,可以获得DataFrame的行和列的标签。这也是了解数据内容和含义的重要步骤。

df.index
Index([u'a', u'b', u'c', u'd'], dtype='object')

查看字段名

df.columns
Index([u'one', u'two'], dtype='object')

decribe方法可以计算各个列的基本描述统计值。包含计数,平均数,标准差,最大值,最小值及4分位差。

df.describe()
 onetwocount3.04.000000mean2.02.500000std1.01.290994min1.01.00000025%1.51.75000050%2.02.50000075%2.53.250000max3.04.000000

8 rows × 2 columns

R中的对应函数:

summary(df)

行列转置

df.T
indexabcdone123NaNtwo1234

2 rows × 4 columns

排序

DataFrame提供了多种排序方式。

df.sort_index(axis=1, ascending=False)

sort_index可以以轴的标签进行排序。axis是指用于排序的轴,可选的值有0和1,默认为0即行标签(Y轴),1为按照列标签排序。 ascending是排序方式,默认为True即降序排列。

df.sort(columns='two')df.sort(columns=['one','two'],ascending=[0,1])

DataFrame也提供按照指定列进行排序,可以仅指定一个列作为排序标准(以单独列名作为columns的参数),也可以进行多重排序(columns的参数为一个列名的List,列名的出现顺序决定排序中的优先级),在多重排序中ascending参数也为一个List,分别与columns中的List元素对应。

读写数据

DataFrame可以方便的读写数据文件,最常见的文件为CSV或Excel。Pandas读写Excel文件需要openpyxl(Excel 2007), xlrd/xlwt(Excel 2003)。

从CSV中读取数据:

df = pd.read_csv('foo.csv')

R中的对应函数:

df = read.csv('foo.csv')

将DataFrame写入CSV:

df.to_csv('foo.csv')

R中的对应函数:

df.to.csv('foo.csv')

从Excel中读取数据:

xls = ExcelFile('foo.xlsx')xls.parse('sheet1', index_col=None, na_values=['NA'])

先定义一个Excel文件,用xls.parse解析sheet1的内容,indexcol用于指定index列,navalues定义缺失值的标识。

将DataFrame写入Excel文件:

df.to_excel('foo.xlsx', sheet_name='sheet1')

默认的sheet为sheet1,也可以指定其他sheet名。

数据切片

通过下标选取数据:

df['one']df.one

以上两个语句是等效的,都是返回df名称为one列的数据,返回的为一个Series。

df[0:3]df[0]

下标索引选取的是DataFrame的记录,与List相同DataFrame的下标也是从0开始,区间索引的话,为一个左闭右开的区间,即[0:3]选取的为1-3三条记录。与此等价,还可以用起始的索引名称和结束索引名称选取数据:

df['a':'b']

有一点需要注意的是使用起始索引名称和结束索引名称时,也会包含结束索引的数据。以上两种方式返回的都是DataFrame。

使用标签选取数据:

df.loc[行标签,列标签]df.loc['a':'b']#选取ab两行数据df.loc[:,'one']#选取one列的数据

df.loc的第一个参数是行标签,第二个参数为列标签(可选参数,默认为所有列标签),两个参数既可以是列表也可以是单个字符,如果两个参数都为列表则返回的是DataFrame,否则,则为Series。

使用位置选取数据:

df.iloc[行位置,列位置]df.iloc[1,1]#选取第二行,第二列的值,返回的为单个值df.iloc[0,2],:]#选取第一行及第三行的数据df.iloc[0:2,:]#选取第一行到第三行(不包含)的数据df.iloc[:,1]#选取所有记录的第一列的值,返回的为一个Seriesdf.iloc[1,:]#选取第一行数据,返回的为一个Series

PS:loc为location的缩写,iloc则为integer & location的缩写

更广义的切片方式是使用.ix,它自动根据你给到的索引类型判断是使用位置还是标签进行切片

df.ix[1,1]df.ix['a':'b']

通过逻辑指针进行数据切片:

df[逻辑条件]df[df.one >= 2]#单个逻辑条件df[(df.one >=1 ) & (df.one < 3) ]#多个逻辑条件组合

这种方式获得的数据切片都是DataFrame。

基本运算

Pandas支持基本的运算及向量化运算。

df.mean()#计算列的平均值,参数为轴,可选值为0或1.默认为0,即按照列运算df.sum(1)#计算行的和df.apply(lambda x: x.max() - x.min())#将一个函数应用到DataFrame的每一列,这里使用的是匿名lambda函数,与R中apply函数类似

设置索引

df.set_index('one')

重命名列

df.rename(columns={u'one':'1'}, inplace=True)

查看每个列的数据类型

df.dtypes

R中的对应函数:

str(df)

查看最大值/最小值

pd.Series.max()pd.Series.idxmax()

重设索引

df.reset_index(inplace=True)

改变数据类型

df['A'].astype(float)

计算Series每个值的频率

df['A'].count_values()

R的对应函数:

table(df['A'])

字符方法

pandas提供许多向量化的字符操作,你可以在str属性中找到它们

s.str.lower()s.str.len()s.str.contains(pattern)

DataFrame的合并

Contact:

ds = [{'one' : 4,'two':2},{'one' : 5,'two' : 3},{'one' : 6,'two' : 4},{'two' : 7,'three':10}]dfs = pd.DataFrame(ds,index=['e','f','g','h'])##构建一个新的DataFrame,dfsdf_t=pd.concat([df,dfs])#合并两个DataFrame

Merge(类似SQL中的Join操作):

left = pd.DataFrame({'key': ['foo1', 'foo2'], 'lval': [1, 2]})right = pd.DataFrame({'key': ['foo1', 'foo2'], 'rval': [4, 5]})#构建了两个DataFramepd.merge(left, right, on='key')#按照key列将两个DataFrame join在一起

DataFrame中的Group by:

df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'],                    'B' : ['one', 'one', 'two', 'three','two', 'two', 'one', 'three'],                    'C' :randn(8), 'D' : randn(8)});df.groupby('A').sum()#按照A列的值分组求和df.groupby(['A','B']).sum()##按照A、B两列的值分组求和

对应R函数:

tapply()

在实际应用中,先定义groups,然后再对不同的指标指定不同计算方式。

groups = df.groupby('A')#按照A列的值分组求和groups['B'].sum()##按照A列的值分组求B组和groups['B'].count()##按照A列的值分组B组计数

默认会以groupby的值作为索引,如果不将这些值作为索引,则需要使用as_index=False

df.groupby(['A','B'], as_index=False).sum()

构建透视表

使用pivot_table和crosstab都可以创建数据透视表

df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 3,'B' : ['A', 'B', 'C'] * 4,                 'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,                 'D' : np.random.randn(12), 'E' : np.random.randn(12)})pd.pivot_table(df, values = 'D', rows = ['A', 'B'], cols = ['C'])#以A、B为行标签,以C为列标签将D列的值汇总求和pd.crosstab(rows = ['A', 'B'], cols = ['C'], values = 'D')#以A、B为行标签,以C为列标签将D列的值汇总求和

 时间序列分析

时间序列也是Pandas的一个特色。时间序列在Pandas中就是以Timestamp为索引的Series。

pandas提供to_datetime方法将代表时间的字符转化为Timestamp对象:

s = '2013-09-16 21:00:00'ts = pd.to_datetime(s)

有时我们需要处理时区问题:

ts=pd.to_datetime(s,utc=True).tz_convert('Asia/Shanghai')

构建一个时间序列:

rng = pd.date_range('1/1/2012', periods=5, freq='M')ts = pd.Series(randn(len(rng)), index=rng)

Pandas提供resample方法对时间序列的时间粒度进行调整:

ts_h=ts.resample('H', how='count')#M,5Min,1s

以上是将时间序列调整为小时,还可以支持月(M),分钟(Min)甚至秒(s)等。

画图

Pandas也支持一定的绘图功能,需要安装matplot模块。

比如前面创建的时间序列,通过plot()就可以绘制出折线图,也可以使用hist()命令绘制频率分布的直方图。

关于Panda作图,请查看另一篇博文:

:用Pandas作图

以上是关于Pandas的简单介绍,其实除了Pandas之外,Python还提供了多个科学计算包,比如Numpy,Scipy,以及数据挖掘的包:Scikit Learn,Orage,NLTK等,感兴趣的同学可以了解一下。


0 0
原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 移动宽带忘记账号密码怎么办 宽带账号密码忘了怎么办 不知道宽带账号密码怎么办 宽带的账号密码忘记了怎么办 wifi登录名忘记了怎么办 苹果手机微信图纸打不开怎么办 手机qq邮箱文件打不开怎么办 12360忘记用户名和密码怎么办 刚开店铺没生意怎么办 淘宝账户不符合注销条件怎么办 网易邮箱登录密码忘记了怎么办 q号密码忘记了怎么办 志愿者注册忘记密码和用户名怎么办 w10电脑语言栏不见了怎么办 w10美式键盘没了怎么办 xp电脑开机密码忘记了怎么办 电脑开机密码到期忘记改怎么办 电脑账户数据库密码忘了怎么办 微信不能拍摄了怎么办 华硕笔记本用户名密码忘了怎么办 学信网登录密码用户名搞忘怎么办 电脑密码输入错误会被锁怎么办 电脑被锁机软件设了密码怎么办 电脑密码被锁了怎么办 电脑xp密码忘了怎么办 三星账户账号密码忘了怎么办 三星账户密码忘记了怎么办 w7账号被禁用了怎么办 笔记本用户名密码忘记了怎么办 笔记本忘记用户名和密码怎么办 苹果手机忘记用户名和密码怎么办 w10电脑忘了密码怎么办 联想台式电脑密码忘记了怎么办 新电脑用一会就很烫怎么办 电脑忘了密码怎么办啊 戴尔笔记本账户密码忘记了怎么办 华硕台式电脑开不了机怎么办 手机号申请qq账号上限了怎么办 店铺不干了被告商标侵权怎么办 咸鱼违规被投诉侵犯商标权怎么办 房子买了70年后怎么办