Python基本数据统计

来源:互联网 发布:c语言错误提示 编辑:程序博客网 时间:2024/05/18 15:24

基本的数据处理过程
(1)数据收集
(2)数据整理
(3)数据描述
(4)数据分析

便捷数据获取
(1)使用matplotlib的finance包中的API可以获取一些财经网站(如雅虎)的财经数据。
(2)使用python的nltk包可以下载一些自然语言的语料库。

数据准备
(1)使用列表设定dataframe各列的名称,然后在创建dataframe时把列表传递给columns参数,就可以设置各列的字段名了。
(2)python中时间的表示跟人类的表示形式不一样,因此需要使用date类中的方法来转换。
(3)创建时间序列:可以以日期作为DataFrame的索引,使用date_range方法设置,然后将对象传递给index参数。

数据显示
(1)显示方式:显示索引,显示列名,显示数据的值,显示数据描述。
(2)当类型不一样时,值的获取或者匹配可能会出错。
(3)显示方式–显示行:①专用方式;②切片。
(4)使用head方法和tail方法指定从头或者从尾显示多少个元素。

数据选择
(1)选择方式:①选择行;②选择列;③选择区域;④筛选(条件选择)。
(2)选择方式–行、列:①标签label(loc)。
(3)选择方式–行和列的区域:①标签label(loc);②iloc(位置)
(4)选择方式–单个值:①at;②iat。
(5)loc与iloc不同在于:①loc使用的是行标签,就是把索引的符号写到行的参数那里就行,而iloc用的是行位置,要自己确定是哪些行;②对于列的不同,loc用的也是标签,而iloc用的是第几个标签,用的是位置。
(6)at与iat的区别和loc与iloc的相似。
(7)iloc和iat更像是很多程序语言获取多维数组的元素时的所用的下标式方法;而loc与at更像是pandas的DataFrame独有的,使用标签获取的方法。
(8)选择方式–条件筛选:向loc,iloc或者[]操作符中传入布尔表达式(mask),可用于筛选数据。

简单统计与处理
(1)直接访问列名属性,然后进行一些关系运算可以选择符合某些条件的数据(也是mask使用的一种),然后获取这些数据的相关信息。
(2)使用numpy的diff函数可以计算某序列元素相邻数据的差值。
(3)numpy的where方法结合序列元素访问可以获取满足特定条件的元素。
(4)多看看第三方库中的函数并使用,这样才能熟悉。
(5)排序:使用dataframe的sort方法,设置ascending参数可以实现逆序。
(6)使用value_counts方法可以统计某一列中的不同值出现的次数。