猫推荐算法大赛Top 9团队

来源:互联网 发布:数据字典是用来定义 编辑:程序博客网 时间:2024/05/21 21:31

http://www.csdn.net/article/2014-08-29/2821403-the-top-9-of-ali-bigdata-competition


2. 特征提取:提取的方式采用map-reduce编写的代码一次提取完成,避免频繁的使用SQL进行表连接。特征包括用户特征、品牌特征、用户-品牌特征和综合类特征。用户特征反应了用户的购买力和一些行为偏向;品牌特征反应了品牌的热门程度、周期性、季节性、购买趋势以及品牌整体的行为偏向;用户-品牌特征反应了用户对这个品牌喜爱程度、购买意向;复合类特征考虑了很多心理学和业务上的特点,建立行为转移、周期、偏好等复杂的特征。

3. 正负样本采样:所有的用户-品牌特征组中,在下一个月产生了购买的比例极小(1:300+),样本分布严重不均衡,因此对负样本进行了随机采样。不同模型的最佳采样比例会有区别,RF采样比在1:8左右,GBRT采样比在1:11~1:14左右。

4. 模型:最终采用的是GBRT模型,模型思想是Boosting,Boosting算法都是一个迭代的过程,每一次新的训练都是为了改进上一次的结果。

着重攻坚方向

在这次比赛中,花费时间最多的是特征的提取,考虑什么样的用户会购买,什么样的品牌会被购买,什么样的行为预示用户会购买一个品牌。

算法亮点

1. 数据预处理步骤填充了缺失的点击数据,并且填充的值是根据用户和品牌的历史行为进行填充,尽可能还原了真实的行为。

2. 由于本人是资深的网购爱好者,因此从自身的经验和用户心理出发,思考了一批结合业务的特征,包括行为转移、周期、偏好等。

CSDN:谈谈比赛感想。

Give对研究数据挖掘、信息检索等领域的很多研究者来说,数据是非常珍贵的,但是对于还在高校的人,数据是很难获得的,现有的一些公开数据集,规模上一般也都比较小。阿里巴巴拥有海量商品、卖家、用户、交易、评价的数据,这些数据是很多从事数据挖掘方面研究者梦寐以求的。经历了几个月的比赛,不论是在学术研究水平上还是心理上都有了巨大的成长。天池平台给我们这些在校的学生提供了一个很好的机会去真正接触大数据,使得我们的研究思路能够在真实的数据中进行检验。这次比赛也让我懂得了在逆境中的坚持:当第一赛季眼看要进不了第二赛季的时候,我坚持了下来;在第二赛季成绩半个多月没有进展的时候,我也坚持了下来;在换数据集前还徘徊在10名之外,但是在最后7天,一个人熬夜奋战,又冲回到了前10。

CSDN:ODPS使用感受,优点及建议。

Give优点:ODPS提供了丰富的机器学习算法,还有强大的计算能力。建议:(1)ODPS平台资源调度优化:小任务能保证在一定时间内可以分配到资源;大任务可以运行慢一些,但是保证不会报错中途停止;以团队为单位限制资源使用量。(2)错误提示信息可以更人性化。

本文导读

  • 第1页:学生强则国强,访天猫推荐算法大赛Top 9团队
  • 第2页:清水湾沙滩青年流浪者团队
  • 第3页:Bazinga团队
  • 第4页:Kevin团队
  • 第5页:Tyche团队
  • 第6页:数据心跳团队
  • 第7页:Fly402团队
  • 第8页:KLMJV团队
  • 第9页:Marvel团队
73
4
  • 腾讯李朝晖:不移动非互联,投资关注四大领域
  • 【问底】Yao Yu:谈Twitter的百TB级Redis缓存实践
  • 2014 中国大数据技术大会将于12月中旬隆重召开
  • AWS Elastic MapReduce开始支持Hive 13
  • 【CTO俱乐部走进雅虎北京全球研发中心】活动图文实录
  • 【问底】严澜:数据挖掘入门——分词

已有94条评论

还可以再输入500个字
laoda079欢迎您!

  • 最新评论
  • 最热评论

skran2014-09-04 09:22
不是说14个国家和地区吗,结果最后都是本国人
回复
liufangmeng2014-09-04 08:15
怎么动不动就大数据啊,你it技术不就是解决数据的吗?
回复
Cherish_ize2014-09-03 09:48
厉害啊~~
回复
toxy66jun2014-09-02 14:50
膜拜啊
回复
寸辰2014-09-02 13:38
忍不住吐槽两句,也就只有国人敢叫“大数据”,拿着数据挖掘的技术,去搞一些云里雾里华而不实的东西,说白了,还不如蓝翔高级技工学校挖掘机技术!
回复
binouyang2014-09-02 14:36
难道大csdn也被蓝翔占领了?
回复
benjust2014-09-01 13:48
大数据的真实应用啊!偶只能学习学习了
回复
sql_juven2014-09-01 09:21
mark
回复
suntsh2014-09-01 08:49
正帖子很火啊,有高手在吗,共同开发一个软件啊,加我qq吧:七九九六二二五九
回复
zhiweitoushi2014-08-31 22:45
发表感想有积分吗
回复
soton_dolphin2014-08-31 21:26
1th, 2th, 3th... 应该是 1st, 2nd, 3rd,编辑的英文真是。。。
回复
qq_176246632014-08-31 21:36
哈哈、、
回复
仲浩2014-09-01 08:42
感谢指正,已改
回复
zclace2014-08-31 15:02
百分之60多的预测 相当于没预测 全失败的赶脚
回复
silence12142014-08-31 12:31
Logistic Regression 是逻辑回归,上面硬是写上 线性模型,逻辑回归怎么是线性模型呢
回复
senduo2014-08-31 11:46
mark
回复
九品仙2014-08-31 11:27
冲着标题前几个字说下.毕业后..你们面对的是小贩....算法...加减乘除用得好足矣... 什么强不强的....撤太远了....
回复
普世编程技术2014-08-31 05:39
原来没看内容,刚才没事直接翻到第一名的看看。哈哈哈,看看人家美国大片,里面解决问题的时候,出现在第一线的永远都是心理学家、法律专家、社会学家等。我们这里,哈哈哈,什么推荐算法,明显是一个人的因素,而竟然在文章里出现一大批什么狗屁GBRT、RF、LR、神经网络算法。。。哈哈哈哈,程序员和算法,本来就应该像建筑工地的农民工和井底挖煤的工人一样,由人家搞心理学、传媒、广告、社会方面的专家指挥着,才可能开发出一个好的推荐算法。中国不仅仅在IT,技术,物理,材料方面落后欧美,更在心理学、传媒、广告、社会方面更加落后。
5票回复
zclace2014-08-31 15:03
我国还处在社会主义初期阶段
回复
烙饼2014-09-04 14:52
回复@zclace:预计这个阶段是持续很久,我们是没有看到的希望了
回复
qq_202418992014-08-30 23:33
顶,下次有机会也参加...顶,下次有机会也参加...
回复
SteveWorks2014-08-30 17:33
顶,下次有机会也参加...
回复
qq_202296212014-08-30 16:34
啦啦啦啦啦
回复
健康快乐身体好2014-08-30 12:41
喷子好多,感觉自己很NB一样
1票,来自健康快乐身体好1票回复
yangxuefeng092014-08-30 12:22
都是牛人
回复
ygtjcng12014-08-30 11:04
不太懂这个东西,隔行如隔山啊。外行看着觉得很高深的东东。。。。。。。
回复
普世编程技术2014-08-30 11:03
商品推荐,不需要算法,只需要心理学。比如一个人看了两样不同的商品:电冰箱和热水器,那么这个人可能是刚刚搬家、租房或者装修完,需要买所有的常用电器,那么也应该尝试给他推荐锅碗瓢盆等。如果一个人浏览的几样商品,都是性价比极高的,那么这个人可能很节俭,那就应该给他推荐其它性价比高。如果有个人浏览的是一些高端的,那就应该推荐高端的。这和你吗的算法和大数据有个屁关系啊,这是心理学、行为学、社会学方面。这和你吗的大数据有哥屁关系啊,大数据只是统计那个商品买的多,那个商品利润高,和你吗的用户意念能有什么关系?
4票,来自Kong_David梅迎朝wushiheibing更多13票回复
midashao2014-08-30 17:54
大数据啊....
回复
codeyanbao2014-08-31 09:35
哥们你智商是硬伤啊
回复
a45323382014-08-31 12:42
不懂就不要乱说。。。。。
回复
xjavasunjava2014-08-31 21:25
智商捉急,尼玛那么多用户你去请心理学家分析啊,不累死才怪,不懂大数据就别乱说
回复
xiao7cn2014-08-31 23:54
是啊 google也别整了 顾一帮心理学砖家 好吧
回复
不败的拿破仑2014-08-30 09:01
虽然不太懂,但我理解的是 模型都是用现有的,就是特征靠自己用人脑来提取,用计算机优化。是这样吗?还有还是阿里巴巴厉害啊,如果真的效果有明显提升,直接可以拿来采用。再给学生团队几千几万的奖金。真是大赚特赚啊。特别是天猫淘宝这样需要大量数据分析的公司
回复
beowulf20052014-08-30 12:00
特征的提取也有专门算法。
回复
gaucho1142014-08-30 08:26
真牛就自己弄个出来
回复
jonathanwong2014-08-30 00:59
额。。。大数据预测的是趋势,而不是个体。。。
2票,来自极情天jonathanwong回复
普世编程技术2014-08-29 22:36
推荐还需要算法?不就是同一价位,同一种东西,不就行了嘛?本人有时候买了东西之后,结果广告上还显示那商品,老子都买了,难道还让我再买一个?有时候老子浏览了商品之后,发觉不合适,就不看了,结果那广告还是推荐那商品,老子已经否定,你他妈的再推荐老子也不买啊。什么狗屁推荐算法,都是自欺欺人的东西,说白了,没有任何推荐算法,最好的推荐方式,不是计算机算法,而是社会学,心理学。整你\妈\B的整天算法算法,好像显得多牛\逼似的。
3票回复
tacey_wong2014-08-29 22:46
好好说话,好好讨论
回复
影轩老豆2014-08-29 23:58
请用计算机模拟社会学和心里学!
回复
普世编程技术2014-08-30 10:59
回复@tacey_wong:对你这样的垃圾,还有资格要求好好说话?草他吗的,连基本基础知识都不懂,就他吗的开始鼓吹大数据。大数据你吗的是搞数据统计和分析的,不是搞行为预判的。大数据和你吗的商品推荐没有任何关系。基本概念都他吗的没弄清楚,干一点屁事,就赶紧粉饰成过牛逼的项目,就他吗往互联网、云计算、大数据上生搬硬套,就这几把水平,还“学生强则国强”呢,你吗的谁都当过学生,大家水平心里都有数,还上纲上线的,操!
3票,来自nimade511chai25006019android无聊大神12票回复
zclace2014-08-30 11:17
我国还处于社会主义初期阶段
回复
ice1109562014-08-30 19:47
回复@普世编程技术:我去,久仰已久你的大名,第一次靠的这么近。大家可以google下这个奇葩的所有言论,有惊喜。
1票,来自ice110956回复
zhongyu922014-08-30 22:55
自己不行就说别人不行?自己不懂就说这玩意没用?
1票,来自zhuanshen回复
jasonchenee2014-09-02 10:05
话粗理不粗,确实用户需求的推荐方式,是你所说的那样的。
回复
mogui3692014-08-29 19:01
都得名牌大学,都是硕士,博士。为毛都是中国的队伍,其他都是什么国家的?
回复
攻城狮凌风2014-08-29 18:52
前50有成电的团队么,想学习下。
回复
suntsh2014-08-29 17:38
这么牛啊,能帮我预测一下,小米下期的验证码是什么吗?历史数据如下:{"mod":"2695 乘以 1"}){"mod":"\"米兔有几只耳朵\" + \"每周二中午几点开始开放购买\" = "}){"mod":"\"每周二中午几点开始开放购买\" + \"今天是星期几\" = ?"}){"Q":"下列数字中最大的数字是什么?","D":"39 , 11 , 14 , 64 , 61"}){"Q":"下列数字中最大的数字 + 最小的数字 =","D":"30 , 29 , 30 , 20 , 10"}){"Q":"下列数字中最小的两个数字相加 = ?","D":"42 , 17 , 49 , 29 , 41"}){"Q":"请输入下列算式计算结果","D":"95 + 66"}){"Q":"请输入下列第二组算式计算结果","D":"37 + 27 = ? 18 + 4 = ?"}){"Q":"下面的单词共有几个字母?","D":"rule"})csdn的各位高手,如果能解决此验证码问题的,欢迎联系我,我的qq是79962259,重金酬谢啊
2票,来自loveit111borland109回复
suntsh2014-08-30 08:07
有高手愿意合作,一起解决这个问题吗
回复
xiao7cn2014-08-31 23:55
回复@suntsh:一二五0七五六一
回复
suntsh2014-09-01 08:46
回复@xiao7cn:已经加你qq
回复
rgdbx3ye12014-09-04 13:22
可以通过历史数据预测结果是数字。
回复
eaststone_l2014-08-29 17:04
mark,前十的方法我都想了解了解,我队最后F1只有5.3%,与他们差远了啊,只排到了130名。PS:LS们的评论感觉与这文章不相关啊?
2票,来自feic6666Mooker_Lee1票回复
跑ing2014-08-31 20:34
请问5.3%是代表什么呢
1票回复
lkxtracy2014-08-29 17:01
除了标题和参赛者的名字,我什么都没看懂
回复
fkyhsb2014-08-29 16:54
博士毕业的小王同学,来到一家大超市工作,向老板拍胸脯说,我可以用先进的数据挖掘技术预测客户购买商品,小王花了无数个昼夜,加班工作,收集了上千个客户数据特征,又运用了逻辑回归随机森林等等复杂的算法模型,再经过几天几夜的训练计算,最后收敛得到一串小数,小王兴奋喊到:i got it!并将自己喜欢的一位女生客户的数据输入模型,然后再次兴奋的喊到:她是会买的!第二天一早,小王在超市里等到女生出现,拦出她,得意的说:你是要买**商品,对不对。女生吃惊半天,说一句:有病!就走了。小王满脸疑惑,不对啊,回去又继续检查了一番算法,是不是过拟合问题,是不是噪音问题,最后确定算法没错。于是第二天继续守候...
3票,来自skuld2009wiige_seekerMcVilla4票回复
tacey_wong2014-08-29 22:43
你是来捣乱的吧。。。。
回复
jonathanwong2014-08-30 00:57
你知道的太多了= =。。。
回复
conry2014-08-30 16:17
回复@jonathanwong:砸场子的
回复
shg_shg2014-08-29 16:35
mark
回复
mingxingxinxing2014-08-29 16:02
这样的赛事很值得期待
回复
zhlvgj2014-08-29 15:46
不错的说,训练优化的说。
回复
madao_001919802014-08-29 15:33
挺厉害的 good
回复
zhangrual2014-08-29 13:43
you can you up,no can no bi bi.
回复
beowulf20052014-08-29 13:17
大谬不然。20年来,IOI中国队战绩,年年金牌。有用吗?!
1票,来自qq_172486191票回复
LoveKobe_2014-08-29 17:04
有用,人家现在年薪几十万,百万,国外,至少不是码农
1票,来自YouCompleteMe1票回复
beowulf20052014-08-30 11:57
回复@LoveKobe_:对不起。到目前为止,我还没有见到这些中国IOI的冠军们,对中国的软件行业或是计算机科研领域有任何杰出贡献。正经念过大学的人,年薪几十万百万算是一件很难的事吗???
1票,来自不败的拿破仑回复
心如刀割2014-08-29 12:47
什么玩意,没点实际用处,到处骗经费
5票回复
ice1109562014-08-29 13:50
md,阿里自己出的钱办的比赛,亲身经历的人都能感受到前十深厚的算法功底。你们这些弱智哪里来的自信??
3票,来自u010138467YouCompleteMeporozhouhang3票回复
ice1109562014-08-29 16:59
回复@ice110956:说的气话,不要踩我~。~
1票,来自u010540025回复
tacey_wong2014-08-29 22:45
这是阿里自己出钱办的。。。
回复
microzhe2014-08-30 16:27
到不是骗经费,而是阿里通过这个花费不多的活动来找到合适自己的人才。
1票,来自不败的拿破仑回复
gelei0072014-08-29 11:30
除了标题和参赛者的名字,我什么都没看懂
回复
calahamidahh2014-08-29 11:18
成败都在特征提取啊
回复
yueyuexiong2014-08-29 10:34
额,挺厉害的
回复
普世编程技术2014-08-29 10:30
任何比赛,都是学生拿奖多,工作的人几乎很少有拿奖的。原因大家都懂得。
1票,来自chensy20123票回复
yangyun2014-08-29 10:44
因为就象你一样,参加工作后只知道喷口水,没时间来研究
10票,来自YouCompleteMehuangshenglynmirage_o更多回复
卧_槽2014-08-29 11:52
回复@yangyun:没参加工作就开始喷粪,从没研究过。
回复
driverin2014-08-29 14:43
回复@卧_槽:小号亮了
1票,来自driverin回复
univmercury2014-08-31 11:50
这样的比赛都要长时间的投入,往往到最后就是比谁能够坚持下来。一般来说,学生时代是最有时间的,而且做东西没有其它干扰,能够全心投入。而工作后很少有这样的大把时间和安静的环境。而且,很多比赛仅限于在校生参加,所以看到的大部分是学生。当然,学生时代也是最具有创新性的时代,所谓初生牛犊不怕虎,什么都敢干,出成绩是自然而然的事情。
1票,来自caimo回复
back_ystone2014-08-29 10:30
mark
回复
阳泉酒家小当家2014-08-29 10:08
最后要达到的就是通过过去,预测未来,这个对群体是有帮助的,但对于具体到某个个体,就不一定准确了
回复
天煞狼2014-08-29 10:07
很棒啊!!
回复
阳泉酒家小当家2014-08-29 10:07
其实说白了,就是用已有的算法,来建立模型,然后不断的迭代,进行训练,让以后的预测结果更加接近真实的这么一个过程。这个过程本身并不难理解。
回复
s12571783722014-08-29 09:35
mark
回复
aaa30962014-08-29 09:31
人跟人真是有差距
回复
klzs12014-08-29 09:22
马克
回复
请您注意
  • ·自觉遵守:爱国、守法、自律、真实、文明的原则
  • ·尊重网上道德,遵守《全国人大常委会关于维护互联网安全的决定》及中华人民共和国其他各项有关法律法规
  • ·严禁发表危害国家安全,破坏民族团结、国家宗教政策和社会稳定,含侮辱、诽谤、教唆、淫秽等内容的作品
  • ·承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • ·您在CSDN新闻评论发表的作品,CSDN有权在网站内保留、转载、引用或者删除
  • ·参与本评论即表明您已经阅读并接受上述条款
  • CSDN官方微信
  • 扫描二维码,向CSDN吐槽
  • 微信号:CSDNnews
程序员杂志for iPad 免费下载
每日资讯快速浏览

微博关注

相关热门文章

  • 排名前十的SQL和NoSQL数据库
  • R语言知识体系概览
  • 【问底】严澜:数据挖掘入门——分词
  • 【云先锋】数云:另类淘宝创业,瞄准背后百万卖家的数据挖掘
  • 【云先锋】红象云腾:Hadoop将和高铁一样改变我们的生活
  • 避免关注底层硬件,Nvidia将机器学习与GPU绑定
  • 盘点MIT Demo Day上4个最有前途的创业点子
  • 能准确“猜透”玩家心理,深度学习让游戏更智能
  • 【问底】Yao Yu:谈Twitter的百TB级Redis缓存实践
  • 系统防护+DB安全+0Day+反漏洞挖掘,初窥ISC 2014互联网攻防(免费门票)

热门标签

  • Hadoop
  • AWS
  • 移动游戏
  • Java
  • Android
  • iOS
  • Swift
  • 智能硬件
  • Docker
  • OpenStack
  • VPN
  • Spark
  • ERP
  • IE10
  • Eclipse
  • CRM
  • JavaScript
  • 数据库
  • Ubuntu
  • NFC
  • WAP

0 0
原创粉丝点击