pandas用法

来源:互联网 发布:怎么提高淘宝店转化率 编辑:程序博客网 时间:2024/04/29 16:49

官网:http://pandas.pydata.org/

pandas是基于numpy构建的,处理表格、字典等数据结构。

from pandas import Series, DataFrameimport pandas as pd

1 pandas的数据结构

1.1 Series

所有方法
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html

比较常用的方法

Series.count(level=None)
Series.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)

Returns object containing counts of unique values.
The resulting object will be in descending order so that the first element is the most frequently-occurring element. Excludes NA values by default.

Returns: counts: Series

一维数组。它由一组数据(各种numpy数据类型)以及一组与之相关的数据标签(即索引)组成。

例子

obj = Series([4, 7, -5, 3])obj.valuesobj.indexobj['index']obj[1]obj[['c', 'a', 'd']]sdata = {'a': 33, 'b': 44, 'c':55}obj = Series(sdata)obj.nameobj.index.name

1.2 DataFrame

api
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html#pandas.DataFrame

常用的方法

class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

column(列), index(行)
例子
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数字、字符串、布尔值等)

构建DataFrame的方法有很多,最常见的一种是直接传入一个由等长列表或NumPy数组组成的字典:

data = {'a': [1, 3, 5, 7],         'b': ['n', 'i', 'm', 'l'],         'c': [1.2, 1.1, 3.2, 5.1]}frame = DataFrame(data)frame['b'] # columnframe.ix[0] # rowdata = DataFrame(np.arange(16).reshape((4, 4)),                index=['Ohio', 'Colorado', 'Utah', 'New York'],                columns=['one', 'two', 'three', 'four'])data['two']data[['three', 'one']]

1.3 索引对象

index = pd.Index(np.arange(3))