python pandas库基础

来源:互联网 发布:怎么申请淘宝店铺 编辑:程序博客网 时间:2024/05/01 11:55
pandas核心:Series和DataFrame分别对应一维的序列好二维的表结构  
   使用:
   from pandas import Series,DataFrame
   import pandas as pd 
   大部分一维数据都可以用来构造Series对象----Series包含index和values属性
   例子
      >s=Series([1,2,3,4,'abc'])
      >s
       0    1
       1    2
       2    3
       3    4
       4    abc
       dtype:object
      >s=Series(data=[1,2,3],index=['a','b',c])
      >s
       a     1
       b     2
       c     3
       dtype:int64
      >s.index
       Index(['a','b','c'],dtype='object')
   DataFrame是表格类型的数据结构
      它含有一组有序的列(类似于 index),每列可以是不同的值类型(不像 ndarray 


只能有一个 dtype)
      基础语法:DataFrame(data=None,index=None,Columns=None)//index是索引,


columns是列名
      例子
      >data={'state':['a','b','c'],'year':[2013,2014,2015],'pop':[1,2,3]}
      > data
     {'state': ['a', 'b', 'c'], 'pop': [1, 2, 3], 'year': [2013, 2014, 2015]} 
      > df=DataFrame(data)
      > df
           pop state  year
       0    1     a  2013
       1    2     b  2014
       2    3     c  2015
      > df=DataFrame(data,index=['one','two','three'],columns=        


['year','state','pop','debt'])
      > df
              year state  pop debt
      one    2013     a    1  NaN
      two    2014     b    2  NaN
      three  2015     c    3  NaN   //NAN表示缺失
    pandas的一些统计方法:
      count 非 NA 值的数量
      describe 针对 Series 或 DF 的列计算汇总统计
      min , max 最小值和最大值
      argmin , argmax 最小值和最大值的索引位置(整数)
      idxmin , idxmax 最小值和最大值的索引值
      quantile 样本分位数(0 到 1)
      sum 求和
      mean 均值
      median 中位数
      mad 根据均值计算平均绝对离差
      var 方差
      std 标准差
      skew 样本值的偏度(三阶矩)
      kurt 样本值的峰度(四阶矩)
      cumsum 样本值的累计和
      cummin , cummax 样本值的累计最大值和累计最小值
      cumprod 样本值的累计积
      diff 计算一阶差分(对时间序列很有用)
      pct_change 计算百分数变化
0 0
原创粉丝点击