处理淘宝双11数据,使用pandas库快速切分海量csv文件

来源:互联网 发布:python web 非阻塞 编辑:程序博客网 时间:2024/06/05 08:10

我们都知道,pandas库可以快速的处理海量数据,对于这样的大数据一般的文本编辑器,都会卡到爆,然而pandas轻松解决

import pandas as pdchunks = pd.read_csv(r'C:\Users\zss0330816\Desktop\user_log.csv',iterator = True)#nrows 指定读取文件的行数chunk = chunks.get_chunk(50000)#name = ['user_id', 'item_id', 'cat_id', 'merchant_id', 'brand_id', 'month', 'day', 'action', 'age_range', 'gender','province']chunk.to_csv('b.csv',index=False,sep=',')  

结果如下:想使用Excel进行分析,或是使用pandas,numpy和matplotlib库分析都很方便。获取定量数据,很轻松把。
这里写图片描述

阅读全文
0 0