天池新人实战赛o2o优惠券使用预测三

来源:互联网 发布:ios 仿淘宝详情页 编辑:程序博客网 时间:2024/04/28 15:04

还是继续进行数据分析和思考:

data = pd.read_csv('ccf_offline_stage1_train.csv')d1 = data['Merchant_id']print(d1.value_counts())

输出排名前列和后列的商户ID:
3381 142190
450 73866
5341 66747
760 60280
2934 40645
2709 37085
……
1657 1
8832 1
5342 1
644 1
8582 1
明显:有好多大商家,感觉小商家很可怜的……
输出排名前列后列的用户ID:

d1 = data1['User_id']print(d1.value_counts())

5054119 264
2751537 155
2949273 137
6655171 136
4840568 134
……
5656800 1
3561697 1
1446120 1
1452271 1
8196 1

明显:有好多土豪在@^@,有人买了264次,直观感觉这种估计以后还是会买买买
同理、统计线上信息:
商户ID:
18907 429622
14305 350246
15813 107860
26203 99939
54402 84713
见鬼了,好像和线下的商户完全不一样啊,应该是线上线下商户就不会一样
用户ID:
14015266 5786
10039831 4344
5669480 4108
10114198 3923
13362266 3305
晕倒,线上土豪更猛,并且和线下也不一样啊,看来线上线下土豪属于不同品种

同理观察测试集合信息:
商户ID:
760 29958
450 12042
5717 7464
5138 6827
3621 5510
1300 4975
2050 4803
1469 3093
7717 2690
2436 2070
用户ID:
6977597 97
1243042 94
5378522 54
2805645 42
2117872 39
3034207 30
7126629 28
5958607 28
测试商户是否重复:结论有很多重复的

data = pd.read_csv('ccf_offline_stage1_train.csv')data[data.Merchant_id==760]

商家ID 线下数据组数
760 60280
450 73866
5717 16509
5138 1439

测试用户是否重复:结论有很多重复的
用户ID 线下数据组数
6977597 49
1243042 111
5378522 65
2805645 12

就是因为有很多重复,所以我们才能可以做预测。
目前的直观想法:
统计各个商户的等级,将商户的销售能力做个打分,作为一个特征
统计各个用户的等级,将用户的购买能力做个打分,作为一个特征
当然销售优惠,距离是非常自然的特征

原创粉丝点击