Python基本数据统计

来源：互联网发布：c语言错误提示编辑：程序博客网时间：2024/05/18 15:24

基本的数据处理过程
（1）数据收集
（2）数据整理
（3）数据描述
（4）数据分析

便捷数据获取
（1）使用matplotlib的finance包中的API可以获取一些财经网站（如雅虎）的财经数据。
（2）使用python的nltk包可以下载一些自然语言的语料库。

数据准备
（1）使用列表设定dataframe各列的名称，然后在创建dataframe时把列表传递给columns参数，就可以设置各列的字段名了。
（2）python中时间的表示跟人类的表示形式不一样，因此需要使用date类中的方法来转换。
（3）创建时间序列：可以以日期作为DataFrame的索引，使用date_range方法设置，然后将对象传递给index参数。

数据显示
（1）显示方式：显示索引，显示列名，显示数据的值，显示数据描述。
（2）当类型不一样时，值的获取或者匹配可能会出错。
（3）显示方式–显示行：①专用方式；②切片。
（4）使用head方法和tail方法指定从头或者从尾显示多少个元素。

数据选择
（1）选择方式：①选择行；②选择列；③选择区域；④筛选（条件选择）。
（2）选择方式–行、列：①标签label（loc）。
（3）选择方式–行和列的区域：①标签label（loc）；②iloc（位置）
（4）选择方式–单个值：①at；②iat。
（5）loc与iloc不同在于：①loc使用的是行标签，就是把索引的符号写到行的参数那里就行，而iloc用的是行位置，要自己确定是哪些行；②对于列的不同，loc用的也是标签，而iloc用的是第几个标签，用的是位置。
（6）at与iat的区别和loc与iloc的相似。
（7）iloc和iat更像是很多程序语言获取多维数组的元素时的所用的下标式方法；而loc与at更像是pandas的DataFrame独有的，使用标签获取的方法。
（8）选择方式–条件筛选：向loc，iloc或者[]操作符中传入布尔表达式（mask），可用于筛选数据。

简单统计与处理
（1）直接访问列名属性，然后进行一些关系运算可以选择符合某些条件的数据（也是mask使用的一种），然后获取这些数据的相关信息。
（2）使用numpy的diff函数可以计算某序列元素相邻数据的差值。
（3）numpy的where方法结合序列元素访问可以获取满足特定条件的元素。
（4）多看看第三方库中的函数并使用，这样才能熟悉。
（5）排序：使用dataframe的sort方法，设置ascending参数可以实现逆序。
（6）使用value_counts方法可以统计某一列中的不同值出现的次数。

阅读全文

0 0