Pandas-Series

来源:互联网 发布:linux基础与大作业 编辑:程序博客网 时间:2024/06/05 19:26

Pandas含有使数据分析工作变得更快更简单的高级数据结构和操作工具,pandas基于numpy构建。


两个主要数据结构:Series和DataFrame。
Series:一种类似于一位数组的对象,由一组数据和一组与之相关的数据标签组成。
产生Series:
1.仅由一维列表即可产生最简单的Series:
obj = Series([-1, 5, 7, 9])
0   -11    52    73    9dtype: int64
            
  2.通过字典创建Series
这时,字典中的键就是Series中的索引,字典中的值就是Series中的值
    3.创建带有索引的Series:
obj2 = Series([4, 7, -5, 3],index = ['d', 'b', 'a', 'c'])
Series常用函数:
obj.values  (没有括号,常识性用函数在后面加括号)
obj.index   
分别是获得了其数组表现形式和索引对象
如:array([-1,  5,  7,  9], dtype=int64)
    Index(['d', 'b', 'a', 'c'], dtype='object') 
                  obj['a'],obj2[['c', 'a', 'b']]:可通过索引方式选取,更改Series中的单个或一组值
  numpy的数组运算都会保留索引和值之间的链接:
obj2[obj2 > 0](返回>0的部分,有索引和值)
obj2 * 2
  判断是否存在某个索引:'b' in obj2   (返回布尔值)
                  Series()传入一个字典,一个索引数组,就会创建一个Series,左边是索引数组,右边是索引数组在字典对应                   值,如果没有对应值 返回NAN(not a number)
  pandas的notnull 和 isnull 用于检测缺失数据:
pd.isnull(obj4)  返回一个Series 左边索引值 右边布尔值
  Series一个重要功能:在算术运算中会自动对齐不同索引的数据
obj3+obj4  最终得到的Series 相同的索引值对应的数据相加,不同的任然存在,不进行运算
   Series name属性:obj4.name = 'population'
   obj4.index.name = 'state'
statecalifornia        NaNohio          35000.0oregon        16000.0texas         71000.0Name: population, dtype: float64
    Series的索引可以通过赋值的方式就地修改:obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']

      
原创粉丝点击