天猫大数据总结1

来源：互联网发布：seo工程师认证考试编辑：程序博客网时间：2024/05/16 06:05

在三月份的时候得知了天猫的比赛，因为是第一届，因此自己知道得也比较晚，组队的时候很多小伙伴都已经组队了，因此也就一个人组队了。辛辛苦苦熬到了第二季的最后

一个月，学到了很多，也明白了很多自己在算法方面的不足。看最近前十名的同学已经揭晓了，很佩服他们，也从他们的采访中中了解到他们的算法，因此也对自己不熟悉的部分进行学习，对自己所做过的工作进行总结

首先再回顾一下比赛的题目：
在天猫，每天都会有数千万的用户通过品牌发现自己喜欢的商品，品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户4个月在天猫的行为日志，建立用户的品牌偏好，并预测他们在将来一个月内对品牌下商品的购买行为。

我们会开放如下数据类型：

字段字段说明提取说明user_id用户标记抽样&字段加密Time行为时间精度到天级别&隐藏年份action_type用户对品牌的行为类型包括点击、购买、加入购物车、收藏4种行为
(点击：0 购买：1 收藏：2 购物车：3）brand_id品牌数字ID抽样&字段加密

用户对任意商品的行为都会映射为一行数据。其中所有商品ID都已汇总为商品对应的品牌ID。用户和品牌都分别做了一定程度的数据抽样，且数字ID都做了加密。所有行为的时间都精确到天级别(隐藏年份)。

第二赛季和第一赛季的格式都是一样的，只是在数据量上更大了一些：

Season 2赛季数据

1)  数据获取方式：
     参赛者只能登陆阿里巴巴天池集群获取数据，且数据不能下载，所有数据分析，计算，提交评分都将在天池集群上完成。登陆天池集群方法，请留
     意后续的指导文档和邮件通知。
2)  数据说明：
     提供的数据量，涉及千万级天猫用户，万级天猫品牌，时间跨度4个月的行为记录。
     提供的训练数据在天池集群的表t_alibaba_bigdata_user_brand_total_1中，字段分别为：user_id，brand_id, type, visit_datetime。如图所示

     用户4种行为类型(Type)对应代码分别为：
     点击：0；购买：1；收藏：2；购物车：3
3)  提交评分方式：
     参赛者完成用户品牌偏好预测后，需要将结果放入指定格式的数据表（非分区表）中，要求结果表名为：t_tmall_add_user_brand_predict_dh，
     包含user_id和brand两列。其中brand字段为预测的偏好品牌ID，多个品牌之间用逗号(",")分隔。
     例如：

主要操作在阿里自己的天池上，上面搭载ODPS平台，可以像sql语言一样操作数据表，同时有MAP-Reduce可以完成一些分布式运算，和hadoop有类似之处，还有自带的一些xlab工具，已经封装了一个功能，比如对表数据进行LR和随机森林的运算都可以直接通过相应的按钮和配置参数完成

其实对我而言，参加比赛对于结果还是不太在意的，但是阿里的赛制很有特色，他不是扔出来一个题目就结束了，比赛持续了四个月，在这四个月里，虽然也有很多别的重要的事情，但是由于淘汰赛制，一直督促自己学习，虽然不是这个相关专业，但是学会了推荐系统的一些基础算法

为了写出更简洁的代码，更专注于算法而非语言本身，学习了python

为了了解更多的算法，看完了好几本推荐算法相关的书籍，虽然名次并不高，但是我想我已经赢了！

之后就开始总结我学到的一些内容，和大家分享

0 0