天猫大数据总结1
来源:互联网 发布:seo工程师认证考试 编辑:程序博客网 时间:2024/05/16 06:05
在三月份的时候得知了天猫的比赛,因为是第一届,因此自己知道得也比较晚,组队的时候很多小伙伴都已经组队了,因此也就一个人组队了。辛辛苦苦熬到了第二季的最后
一个月,学到了很多,也明白了很多自己在算法方面的不足。看最近前十名的同学已经揭晓了,很佩服他们,也从他们的采访中中了解到他们的算法,因此也对自己不熟悉的部分进行学习,对自己所做过的工作进行总结
首先再回顾一下比赛的题目:
在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户4个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。
我们会开放如下数据类型:
(点击:0 购买:1 收藏:2 购物车:3)brand_id品牌数字ID抽样&字段加密
用户对任意商品的行为都会映射为一行数据。其中所有商品ID都已汇总为商品对应的品牌ID。用户和品牌都分别做了一定程度的数据抽样,且数字ID都做了加密。所有行为的时间都精确到天级别(隐藏年份)。
第二赛季和第一赛季的格式都是一样的,只是在数据量上更大了一些:Season 2赛季数据
1) 数据获取方式:
参赛者只能登陆阿里巴巴天池集群获取数据,且数据不能下载,所有数据分析,计算,提交评分都将在天池集群上完成。登陆天池集群方法,请留
意后续的指导文档和邮件通知。
2) 数据说明:
提供的数据量,涉及千万级天猫用户,万级天猫品牌,时间跨度4个月的行为记录。
提供的训练数据在天池集群的表t_alibaba_bigdata_user_brand_total_1中,字段分别为:user_id,brand_id, type, visit_datetime。如图所示
用户4种行为类型(Type)对应代码分别为:
点击:0;购买:1;收藏:2;购物车:3
3) 提交评分方式:
参赛者完成用户品牌偏好预测后,需要将结果放入指定格式的数据表(非分区表)中,要求结果表名为:t_tmall_add_user_brand_predict_dh,
包含user_id和brand两列。其中brand字段为预测的偏好品牌ID,多个品牌之间用逗号(",")分隔。
例如:
主要操作在阿里自己的天池上,上面搭载ODPS平台,可以像sql语言一样操作数据表,同时有MAP-Reduce可以完成一些分布式运算,和hadoop有类似之处,还有自带的一些xlab工具,已经封装了一个功能,比如对表数据进行LR和随机森林的运算都可以直接通过相应的按钮和配置参数完成
其实对我而言,参加比赛对于结果还是不太在意的,但是阿里的赛制很有特色,他不是扔出来一个题目就结束了,比赛持续了四个月,在这四个月里,虽然也有很多别的重要的事情,但是由于淘汰赛制,一直督促自己学习,虽然不是这个相关专业,但是学会了推荐系统的一些基础算法
为了写出更简洁的代码,更专注于算法而非语言本身,学习了python
为了了解更多的算法,看完了好几本推荐算法相关的书籍,虽然名次并不高,但是我想我已经赢了!
之后就开始总结我学到的一些内容,和大家分享
- 天猫大数据总结1
- 天猫大数据总结2
- 《数据挖掘》总结1
- 数据查找算法总结1
- 数据挖掘-数据总结
- 数据加密总结进阶(1)
- executeBatch()处理大数据总结1
- 静态分析实验数据集总结[1]
- 数据缓冲区高速缓冲区学习总结1
- hive大数据倾斜总结 1
- 数据工程师-面试总结1
- 数据访问技术(总结)
- 数据分页的总结
- 数据绑定总结
- 数据范式经典总结
- oracle数据字典总结
- 栅格数据使用总结
- 数据绑定总结
- oracle 11g RAC 启动和关闭
- PHP微信公众开发笔记(二)
- 循环中的this
- Oracle SQL语句优化【4】之使用SQL优化工具
- Bringing up interface eth0: Device eth0 does not seem to be present, delaying initialization.
- 天猫大数据总结1
- 《JavaScript高级程序设计 第三版》学习笔记 (十一)事件详解
- ORA-12154: TNS: 无法解析指定的连接标识符
- bzoj 1715: [Usaco2006 Dec]Wormholes 虫洞
- subString()在JDK6和JDK7中的区别
- 简单理解Struts2中拦截器与过滤器的区别及执行顺序
- 拥塞避免算法
- Rails自带用户验证has_secure_password的使用与源码分析
- Two Sum leetcode