Python for Data Analysis (11)

来源:互联网 发布:ubuntu如何挂载u盘 编辑:程序博客网 时间:2024/06/05 05:24
### pandas知识罗列
---
#### Series
1. series 是类似turple结构的一维数组对象,并可以通过turple来创建;索引在左边,值在右边;索引和值之间有link;
2. series 是有name属性
3. series 有检测缺失数据(NaN)的函数:isnull,notnull
---
#### DateFrame
4. DateFrame 是表格型数据结构,与series不同的是,它可以是不同数据类型组成的,有列索引(index)、行索引(columns);与R的dataframe相似,但不同在于DataFrame的数据是以**一个或多个二维块存放**
5. 获取行和获取列的方法
6. 索引方式返回的series是相应数据的视图,所做的修改都是会反映到源数据上!!!
7. 不存在的列赋值会创建一个新列
8. 创建DateFrame的特别方式:嵌套字典(外层字典的键作为列,内层字典的键为行)
9. df转置(.T)后,index和columns属性互换
10. df的切法是选出index或columns,然后看作一个series来切片!!!
11. 可以输入df构造器的数据形式!?
12. index对象方法???
---
#### 索引、选取、切片和过滤
13. 重新索引reindex,可实现重排列、填充和插值(只能在行上插值),注意参数设置method,fill_value..etc
14. drop方法是去除指定轴的项,如果是df要指定轴axis,并不是在视图上做修改,不影响源数据
15. 标签的切片是闭区间!!df直接切片是按行切,eg: df[:2],也可以利用布尔数组按条件选取行
16. .ix的重要应用就是可以选择df的子集! data.ix[[行],[列]]
---
#### 算术运算、数据对齐
17. 直接使用‘+’,‘-’符号是默认匹配列索引,以行广播
18. 用add、sub、div、mul等函数,可以用轴参数axis来指定
---
#### 排序

19. sort_index()可以选轴,针对series的order()

待续。。

0 0