pandas 解析json文件为DataFrame的三种方式以及其灵活度和效率的比较
来源:互联网 发布:写c语言用什么软件 编辑:程序博客网 时间:2024/04/25 22:13
我所了解到的,将json串解析为DataFrame的方式主要有一样三种:
- 利用pandas自带的read_json直接解析字符串
- 利用json的loads和pandas的json_normalize进行解析
- 利用json的loads和pandas的DataFrame直接构造(这个过程需要手动修改loads得到的字典格式)
实验代码如下:# -*- coding: UTF-8 -*-from pandas.io.json import json_normalizeimport pandas as pdimport jsonimport time# 读入数据data_str = open('data.json').read()print data_str# 测试json_normalizestart_time = time.time()for i in range(0, 300): data_list = json.loads(data_str) df = json_normalize(data_list)end_time = time.time()print end_time - start_time# 测试自己构造start_time = time.time()for i in range(0, 300): data_list = json.loads(data_str) data = [[d['timestamp'], d['value']] for d in data_list] df = pd.DataFrame(data, columns=['timestamp', 'value'])end_time = time.time()print end_time - start_time# 测试read_jsonstart_time = time.time()for i in range(0, 300): df = pd.read_json(data_str, orient='records')end_time = time.time()print end_time - start_time
实验结果如下:
可以看出由于read_json直接对字符串进行的解析,其效率是最高的,但是其对JSON串的要求也是最高的,需要满足其规定的格式才能够读取。其支持的格式可以在pandas的官网点击打开链接可以看到。然而json_normalize是解析json串构造的字典的,其灵活性比read_json要高很多。但是令人意外的是,其效率还不如我自己解析来得快(自己解析时使用列表解析的功能比普通的for循环快很多)。当然最灵活的还是自己解析,可以在构造DataFrame之前进行一些简单的数据处理。
# -*- coding: UTF-8 -*-from pandas.io.json import json_normalizeimport pandas as pdimport jsonimport time# 读入数据data_str = open('data.json').read()print data_str# 测试json_normalizestart_time = time.time()for i in range(0, 300): data_list = json.loads(data_str) df = json_normalize(data_list)end_time = time.time()print end_time - start_time# 测试自己构造start_time = time.time()for i in range(0, 300): data_list = json.loads(data_str) data = [[d['timestamp'], d['value']] for d in data_list] df = pd.DataFrame(data, columns=['timestamp', 'value'])end_time = time.time()print end_time - start_time# 测试read_jsonstart_time = time.time()for i in range(0, 300): df = pd.read_json(data_str, orient='records')end_time = time.time()print end_time - start_time
实验结果如下:
阅读全文
0 0
- pandas 解析json文件为DataFrame的三种方式以及其灵活度和效率的比较
- pandas 解析json文件为DataFrame的三种方式以及其灵活度和效率的比较
- JSON的三种解析方式以及JSONObject、JSONArray区别
- android解析xml文件的方式(其三PULL方式)
- pandas、DataFrame、python三者的关联性
- JSON与XML的区别比较以及xml两种解析方式的比较
- android解析xml文件的方式(其三)
- android解析xml文件的方式(其三)PULL
- 三、pandas系列---pandas库的DataFrame类型
- 使用字节流复制文件的四种方式以及效率比较
- 各种解析xml方式的效率比较
- Pandas两种主要的数据结构--Series和DataFrame
- python-pandas-Series和DataFrame的基本功能
- pandas dataframe行和列的操作
- pandas.Dataframe 的合并
- C#复制数组的两种方式,以及效率比较
- Andorid解析json的三种方式
- JSON的三种解析方式
- Java Web--增删改查之一界面jsp的操作部分
- HDU 5791 题解
- 组件加载
- Spring对bean的装配机制(一)——隐式自动装配
- java实现一个简单的登录界面
- pandas 解析json文件为DataFrame的三种方式以及其灵活度和效率的比较
- ROS之tf空间坐标变换浅析 (二)
- ThreadLocal
- 页面跳转
- Java Web--增删改查之二界面后台java代码
- Stream 中Collectors 的用法
- 动态代理与静态代理
- 版本管理工具学习随笔(一)
- Lucene6.6的介绍和使用