Pandas模块入门(一)——Series结构介绍

来源:互联网 发布:伊朗人质危机 知乎 编辑:程序博客网 时间:2024/04/28 13:59

Pandas模块是Python用于数据导入及整理的模块,对数据挖掘前期数据的处理工作十分有用,因此这些基础的东西还是要好好的学学。

Pandas模块的数据结构主要有两:1、Series ;2、DataFrame
这次就先了解一下Series结构。

1. 介绍

The Series is the primary building block of pandas and represents a one-dimensional labeled array based on the NumPy ndarray;(从书上搬来的,逃~)大概就是说Series结构是基于NumPy的ndarray结构,是一个一维的标签矩阵(感觉跟python里的字典结构有点像)

2. 相关操作

a.创建
a.1、pd.Series([list],index=[list])//以list为参数,参数为一list;index为可选参数,若不填则默认index从0开始;若添则index长度与value长度相等

import pandas as pds=pd.Series([1,2,3,4,5],index=['a','b','c','f','e'])print s

pandas a.1
a.2、pd.Series({dict})//以一字典结构为参数

import pandas as pds=pd.Series({'a':3,'b':4,'c':5,'f':6,'e':8})print s

pandas a.2


b.取值
s[index] or s[[index的list]]
取值操作类似数组,当取不连续的多个值时可以以一list为参数

import pandas as pdimport numpy as npv=np.random.random_sample(50)s=pd.Series(v)s1=s[[3,7,33]]s2=s[1:5]s3=s[49]print "s1\n",s1print "s2\n",s2print "s3\n",s3

pandas b


c..head(n);.tail(n)//取出头n行或尾n行,n为可选参数,若不填默认5

v=np.random.random_sample(50)s=pd.Series(v)print s.head()print s.tail(3)

这里写图片描述


d、.index; .values//取出index 与values ,返回list


e、Size、shape、uniqueness、counts of values

v=[10,3,2,2,np.nan]v=pd.Series(v);print "len():",len(v)#Series长度,包括NaNprint "shape():",np.shape(v)#矩阵形状,(,)print "count():",v.count()#Series长度,不包括NaNprint "unique():",v.unique()#出现不重复values值print "value_counts():\n",v.value_counts()#统计value值出现次数

pandas 5


f.加运算
相同index的value相加,若index并非共有的则该index对应value变为NaN

import pandas as pds1=pd.Series([1,2,3,4],index=[1,2,3,4])s2=pd.Series([1,1,1,1])s3=s1+s2print s3

pandas 6

<原创文章,转载请注明出处>

0 0
原创粉丝点击