Python基本数据统计
来源:互联网 发布:c语言错误提示 编辑:程序博客网 时间:2024/05/18 15:24
基本的数据处理过程
(1)数据收集
(2)数据整理
(3)数据描述
(4)数据分析
便捷数据获取
(1)使用matplotlib的finance包中的API可以获取一些财经网站(如雅虎)的财经数据。
(2)使用python的nltk包可以下载一些自然语言的语料库。
数据准备
(1)使用列表设定dataframe各列的名称,然后在创建dataframe时把列表传递给columns参数,就可以设置各列的字段名了。
(2)python中时间的表示跟人类的表示形式不一样,因此需要使用date类中的方法来转换。
(3)创建时间序列:可以以日期作为DataFrame的索引,使用date_range方法设置,然后将对象传递给index参数。
数据显示
(1)显示方式:显示索引,显示列名,显示数据的值,显示数据描述。
(2)当类型不一样时,值的获取或者匹配可能会出错。
(3)显示方式–显示行:①专用方式;②切片。
(4)使用head方法和tail方法指定从头或者从尾显示多少个元素。
数据选择
(1)选择方式:①选择行;②选择列;③选择区域;④筛选(条件选择)。
(2)选择方式–行、列:①标签label(loc)。
(3)选择方式–行和列的区域:①标签label(loc);②iloc(位置)
(4)选择方式–单个值:①at;②iat。
(5)loc与iloc不同在于:①loc使用的是行标签,就是把索引的符号写到行的参数那里就行,而iloc用的是行位置,要自己确定是哪些行;②对于列的不同,loc用的也是标签,而iloc用的是第几个标签,用的是位置。
(6)at与iat的区别和loc与iloc的相似。
(7)iloc和iat更像是很多程序语言获取多维数组的元素时的所用的下标式方法;而loc与at更像是pandas的DataFrame独有的,使用标签获取的方法。
(8)选择方式–条件筛选:向loc,iloc或者[]操作符中传入布尔表达式(mask),可用于筛选数据。
简单统计与处理
(1)直接访问列名属性,然后进行一些关系运算可以选择符合某些条件的数据(也是mask使用的一种),然后获取这些数据的相关信息。
(2)使用numpy的diff函数可以计算某序列元素相邻数据的差值。
(3)numpy的where方法结合序列元素访问可以获取满足特定条件的元素。
(4)多看看第三方库中的函数并使用,这样才能熟悉。
(5)排序:使用dataframe的sort方法,设置ascending参数可以实现逆序。
(6)使用value_counts方法可以统计某一列中的不同值出现的次数。
- Python基本数据统计
- Python-数据统计入门
- 利用Python进行数据导入、变化、统计和假设检验等基本数据分析
- 数据挖掘-目录-基本统计
- 统计文件内数据 Python
- 大数据:Python统计(20170529)
- spark mllib之基本数据统计
- 使用python统计处理jira数据
- 大数据:Python职位统计(20170529)
- python数据统计脚本实例mysql,redis
- python机器学习-数据规模统计
- python处理百度统计csv数据
- python数据框基本操作
- 福州大学06年GIS招生数据基本统计
- 福州大学07年GIS招生数据基本统计
- 数据统计学习的5个基本流程
- 数据科学家需要掌握的10个基本统计技术
- 谈办公自动化里的报表统计1——最基本的数据统计
- shell中的特殊变量
- IntelliJ IDEA 注册码 (秘钥)
- 也谈谈 Redis 和 Memcached 的区别
- [SCU 4512] Goozy的积木 滚动数组,差值状态转移
- Java学习第六天
- Python基本数据统计
- 链表--复杂链表的复制
- ajax返回json数据,对其中日期的解析
- Linux开发--相对时间
- Redis和Memcached 的区别
- hihoCoder 1419 后缀数组四·重复旋律4(重复次数最多的连续子串)
- 网络流初学整合
- C++程序员学Java系列之十八:继承和抽象
- 八大排序算法