天猫大数据总结1

来源:互联网 发布:seo工程师认证考试 编辑:程序博客网 时间:2024/05/16 06:05

在三月份的时候得知了天猫的比赛,因为是第一届,因此自己知道得也比较晚,组队的时候很多小伙伴都已经组队了,因此也就一个人组队了。辛辛苦苦熬到了第二季的最后

一个月,学到了很多,也明白了很多自己在算法方面的不足。看最近前十名的同学已经揭晓了,很佩服他们,也从他们的采访中中了解到他们的算法,因此也对自己不熟悉的部分进行学习,对自己所做过的工作进行总结


首先再回顾一下比赛的题目:
在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户4个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。

我们会开放如下数据类型:

字 段字段说明提取说明user_id用户标记抽样&字段加密Time行为时间精度到天级别&隐藏年份action_type用户对品牌的行为类型包括点击、购买、加入购物车、收藏4种行为
(点击:0 购买:1 收藏:2 购物车:3)brand_id品牌数字ID抽样&字段加密

用户对任意商品的行为都会映射为一行数据。其中所有商品ID都已汇总为商品对应的品牌ID。用户和品牌都分别做了一定程度的数据抽样,且数字ID都做了加密。所有行为的时间都精确到天级别(隐藏年份)。

第二赛季和第一赛季的格式都是一样的,只是在数据量上更大了一些:

Season 2赛季数据

1)  数据获取方式:
     参赛者只能登陆阿里巴巴天池集群获取数据,且数据不能下载,所有数据分析,计算,提交评分都将在天池集群上完成。登陆天池集群方法,请留
     意后续的指导文档和邮件通知。
2)  数据说明:
     提供的数据量,涉及千万级天猫用户,万级天猫品牌,时间跨度4个月的行为记录。
     提供的训练数据在天池集群的表t_alibaba_bigdata_user_brand_total_1中,字段分别为:user_id,brand_id, type, visit_datetime。如图所示

     

     用户4种行为类型(Type)对应代码分别为:
     点击:0;购买:1;收藏:2;购物车:3
3)  提交评分方式:
     参赛者完成用户品牌偏好预测后,需要将结果放入指定格式的数据表(非分区表)中,要求结果表名为:t_tmall_add_user_brand_predict_dh,
     包含user_id和brand两列。其中brand字段为预测的偏好品牌ID,多个品牌之间用逗号(",")分隔。
     例如:

     

主要操作在阿里自己的天池上,上面搭载ODPS平台,可以像sql语言一样操作数据表,同时有MAP-Reduce可以完成一些分布式运算,和hadoop有类似之处,还有自带的一些xlab工具,已经封装了一个功能,比如对表数据进行LR和随机森林的运算都可以直接通过相应的按钮和配置参数完成


其实对我而言,参加比赛对于结果还是不太在意的,但是阿里的赛制很有特色,他不是扔出来一个题目就结束了,比赛持续了四个月,在这四个月里,虽然也有很多别的重要的事情,但是由于淘汰赛制,一直督促自己学习,虽然不是这个相关专业,但是学会了推荐系统的一些基础算法

为了写出更简洁的代码,更专注于算法而非语言本身,学习了python

为了了解更多的算法,看完了好几本推荐算法相关的书籍,虽然名次并不高,但是我想我已经赢了!

之后就开始总结我学到的一些内容,和大家分享


0 0