Follow me!百万奖金由你拿 | 精准资助数据探索(一)

来源:互联网 发布:模拟投资基金软件 编辑:程序博客网 时间:2024/05/16 05:51

之前已经有大神发过一个《智慧中国杯百万大奖赛解读》系列的文章,好多小白初学者表示文章好高大上,他们感觉有点懵,记不住那么多的原语。那么有没有更加简便的方法呢,不需要记一堆原语,也不需要记各种各样的格式。

大家别着急,OpenFEA早就为菜鸟们考虑好了。OpenFEA的可视化分析模块,就采用可视化的图表操作方式,将原语操作简化为点击几下按钮即可完成数据的分析处理,让菜鸟迅速变成老鸟不再是梦想。

下面让我们跟随高人的脚步,向百万奖金发起冲击吧。Follow me!!!

一、数据介绍

OpenFEA已经将上述数据存放到了OpenFEA在线试用环境的match/fund目录下,具体在www.openfea.cn下载专区里有介绍。

二、助学金数据分析

关于大赛的介绍这里就不多说了,可以参看之前大神的文章智慧中国杯算法赛解读 | 精准资助数据探索(一),我们直接上干货。

1、加载助学金数据

因为原始数据没有列名,所以加参数with (header=-1)为各列自动填写列名。

2、修改字段名

分别用id和money表示学生编号和资助金额(下图以id为例)。

3、分组统计

按照money字段进行分组统计,查看助学金共有几个档次。

4、绘制饼图

可视化展现助学金的分组情况。

三、一卡通数据

1、加载一卡通数据

2、修改字段名

分别用id、pos、address、catalog、time、cost、have表示学生编号、pos消费、消费地点、消费时间、消费金额、余额(下图以id为例)。

3、分组统计

按照id字段进行分组,然后按照cost字段进行最大值、最小值、平均值、中位数的计算。

4、再次进行分组统计

按照id字段进行分组,然后按照have字段进行最大值、最小值、平均值、中位数的计算。

5、关联表

将card_cost表和card_have表用index字段关联起来。

6、查看card_money表的简要统计信息

消费总额最高的是3万多,中位数是8903,单笔最大的消费是4407元,中位数是300,有人单笔最低是93元,看来此同学属于土豪行列,出现的负数可能是退款或误扣等,这个要结合业务知识去判断了,也可以作为噪音处理一下。

卡里保有金额的最大是4399元,中位数是316元,还比较符合对学生的印象。

0 0