猫推荐算法大赛Top 9团队
来源:互联网 发布:数据字典是用来定义 编辑:程序博客网 时间:2024/05/21 21:31
http://www.csdn.net/article/2014-08-29/2821403-the-top-9-of-ali-bigdata-competition
2. 特征提取:提取的方式采用map-reduce编写的代码一次提取完成,避免频繁的使用SQL进行表连接。特征包括用户特征、品牌特征、用户-品牌特征和综合类特征。用户特征反应了用户的购买力和一些行为偏向;品牌特征反应了品牌的热门程度、周期性、季节性、购买趋势以及品牌整体的行为偏向;用户-品牌特征反应了用户对这个品牌喜爱程度、购买意向;复合类特征考虑了很多心理学和业务上的特点,建立行为转移、周期、偏好等复杂的特征。
3. 正负样本采样:所有的用户-品牌特征组中,在下一个月产生了购买的比例极小(1:300+),样本分布严重不均衡,因此对负样本进行了随机采样。不同模型的最佳采样比例会有区别,RF采样比在1:8左右,GBRT采样比在1:11~1:14左右。
4. 模型:最终采用的是GBRT模型,模型思想是Boosting,Boosting算法都是一个迭代的过程,每一次新的训练都是为了改进上一次的结果。
着重攻坚方向在这次比赛中,花费时间最多的是特征的提取,考虑什么样的用户会购买,什么样的品牌会被购买,什么样的行为预示用户会购买一个品牌。
算法亮点1. 数据预处理步骤填充了缺失的点击数据,并且填充的值是根据用户和品牌的历史行为进行填充,尽可能还原了真实的行为。
2. 由于本人是资深的网购爱好者,因此从自身的经验和用户心理出发,思考了一批结合业务的特征,包括行为转移、周期、偏好等。
CSDN:谈谈比赛感想。
Give:对研究数据挖掘、信息检索等领域的很多研究者来说,数据是非常珍贵的,但是对于还在高校的人,数据是很难获得的,现有的一些公开数据集,规模上一般也都比较小。阿里巴巴拥有海量商品、卖家、用户、交易、评价的数据,这些数据是很多从事数据挖掘方面研究者梦寐以求的。经历了几个月的比赛,不论是在学术研究水平上还是心理上都有了巨大的成长。天池平台给我们这些在校的学生提供了一个很好的机会去真正接触大数据,使得我们的研究思路能够在真实的数据中进行检验。这次比赛也让我懂得了在逆境中的坚持:当第一赛季眼看要进不了第二赛季的时候,我坚持了下来;在第二赛季成绩半个多月没有进展的时候,我也坚持了下来;在换数据集前还徘徊在10名之外,但是在最后7天,一个人熬夜奋战,又冲回到了前10。
CSDN:ODPS使用感受,优点及建议。
Give:优点:ODPS提供了丰富的机器学习算法,还有强大的计算能力。建议:(1)ODPS平台资源调度优化:小任务能保证在一定时间内可以分配到资源;大任务可以运行慢一些,但是保证不会报错中途停止;以团队为单位限制资源使用量。(2)错误提示信息可以更人性化。
本文为CSDN原创文章,未经允许不得转载,如需转载请联系market#csdn.net(#换成@)
本文导读
- 第1页:学生强则国强,访天猫推荐算法大赛Top 9团队
- 第2页:清水湾沙滩青年流浪者团队
- 第3页:Bazinga团队
- 第4页:Kevin团队
- 第5页:Tyche团队
- 第6页:数据心跳团队
- 第7页:Fly402团队
- 第8页:KLMJV团队
- 第9页:Marvel团队
- 顶
- 73
- 踩
- 4
- 相关文章
- 最新报道
- 腾讯李朝晖:不移动非互联,投资关注四大领域
- 【问底】Yao Yu:谈Twitter的百TB级Redis缓存实践
- 2014 中国大数据技术大会将于12月中旬隆重召开
- AWS Elastic MapReduce开始支持Hive 13
- 【CTO俱乐部走进雅虎北京全球研发中心】活动图文实录
- 【问底】严澜:数据挖掘入门——分词
- CSDN官方微信
- 扫描二维码,向CSDN吐槽
- 微信号:CSDNnews
微博关注
相关热门文章
- 排名前十的SQL和NoSQL数据库
- R语言知识体系概览
- 【问底】严澜:数据挖掘入门——分词
- 【云先锋】数云:另类淘宝创业,瞄准背后百万卖家的数据挖掘
- 【云先锋】红象云腾:Hadoop将和高铁一样改变我们的生活
- 避免关注底层硬件,Nvidia将机器学习与GPU绑定
- 盘点MIT Demo Day上4个最有前途的创业点子
- 能准确“猜透”玩家心理,深度学习让游戏更智能
- 【问底】Yao Yu:谈Twitter的百TB级Redis缓存实践
- 系统防护+DB安全+0Day+反漏洞挖掘,初窥ISC 2014互联网攻防(免费门票)
热门标签
- Hadoop
- AWS
- 移动游戏
- Java
- Android
- iOS
- Swift
- 智能硬件
- Docker
- OpenStack
- VPN
- Spark
- ERP
- IE10
- Eclipse
- CRM
- JavaScript
- 数据库
- Ubuntu
- NFC
- WAP
CSDN Share PPT下载
- GlusterFS模式及功能介绍
- 嵌入式华清远见
- Openvswtich实验教程
- Oracle工具orachk使用说明
- 猫推荐算法大赛Top 9团队
- #推荐算法大赛#过程记录
- 总结笔记-《天猫推荐算法大赛总结》
- Top-N推荐算法-简介
- 天猫推荐算法团队的那些事儿
- 2015阿里移动推荐算法大赛总结
- 阿里移动推荐算法大赛总结
- 2015阿里移动推荐算法大赛总结
- 专访滴滴算法大赛冠军团队:回归树模型取胜
- 一路向前大数据推荐算法团队
- TOP博文大赛!
- 百度开放研究社区-电影推荐系统算法创新大赛
- 猜你喜欢”推荐算法大赛冠军分享
- TOP团队招贤纳士
- 关于2015阿里移动推荐算法大赛的总结(二)——推荐算法
- 天池医疗AI大赛冠军团队算法分享:肺部结节智能检测 | 公开课
- 天池医疗AI大赛冠军团队算法分享:肺部结节智能检测 | 公开课
- 【回顾】天池医疗AI大赛冠军团队算法分享:肺部结节智能检测
- Apache Thrift - 可伸缩的跨语言服务开发框架
- ACM整理(七)——1006:zoj
- Java实现http协议的解析
- 函数指针
- hdu 5015 233 Matrix 2014 ACM/ICPC Asia Regional Xi'an Online 矩阵快速幂
- 猫推荐算法大赛Top 9团队
- Openstack icehouse ubuntu 部署 - 虚拟机网络配置(GRE配置版本)
- HDU 5009 Paint Pearls(西安网络赛C题)
- Java深入 - Java Socket和NIO
- Linux服务器编程之:truncate()函数+案例说明
- Java集合框架的知识总结(1)
- 【转】数学专业的数学与计算机专业的数学的比较
- Distributed transactions with multiple databases, Spring Boot, Spring Data JPA and Atomikos
- OO and Procedural
已有94条评论
还可以再输入500个字