Kaggle.com的数据挖掘大奖赛
来源:互联网 发布:澳门网络博客官方网站 编辑:程序博客网 时间:2024/05/21 14:51
旧金山的大雾或纽约的交通是很容易预测的。但其它的东西,如股市对大额交易的反应或HIV患者病情的发展状况,是非常复杂的。这就是新创公司Kaggle.com打算做的事情。该公司组织了一场竞赛,参与者通过分析大量数据来尝试做出似乎不可能的预测。
Kaggle聚集了许多有数据科学背景的人,包括博士、研究生、教授和在IBM、谷歌等公司工作的人,为它们提供机会来竞争解决大数据难题,并赢得奖金。竞赛主办方提供数据给用户,用户用定制的算法来发现模型并进行最精确的预测。你可以把竞赛想象成一场预测建模的生死决斗。
Kaggle公司由澳大利亚经济学家安东尼金·高德布鲁(Anthony Goldbloom)所创办,他们从网飞公司Netflix于2006年至2009年举办的比赛中得到灵感。在那次比赛中,对于可以提高其电影推荐软件10%精确度的团队,该公司提供了100万美元的奖金。
Netflix比赛非常受欢迎,这让高德布鲁知道,很多人都对企业中与数据相关的难题感兴趣。2008年在经济学家杂志(The Economist)的实习经历告诉他,许多企业的数据都能够挖掘出有价值的信息,但没有合适的人来研究。
他打赌说公司可以把两方面结合起来,并设想,采用竞赛的方式可能会有更好的结果。
于是他就开始了这项工作。自从2010年4月开始用1000美元来奖励能最精确预测出欧洲电视歌唱大赛(Eurovision Song Contest)参加人数的团队,Kaggle已经组织了30场不同的竞赛,其中5个仍在进行中。
已经发展至2万7000人的Kaggle社区,正在获得成果。在早期的挑战中,德雷赛尔大学(Drexel University)的一位学者提供了匿名的HIV记录,这里面包括他希望可用于预测病毒发展的基因标记数据。只用了一周半的时间,Kaggle的用户就预测到了病毒的发展,与已知数据比较后,发现精度为70%——这是在仅用四年的努力之后,学术研究达到的一个里程碑。三个月的竞赛最后,网站用户已经创建了一个模型,可以减少了之前三分之一的错误率,把预测精确度提高到了77%。
高德布鲁说,网站吸引参与者的是在排行榜排名上升的兴奋感。提交最好解决方案的人将升至排名榜的最高级,这是用户喜欢的。“大家都想不断上升排名,”高德布鲁说。
威尔·库克斯科(Will Cukierski)是罗格斯大学(Rutgers University)生物医学工程的博士生,他不仅喜欢提高排名,还把这种竞争看做是在就业市场上占据优势的方法。他参加了大约6个Kaggle竞赛,其中一个获得第一名,其它的也都名列前茅。“这件事情有点意思,还有点商业性质”,他说。
尽管大多数参与Kaggle竞赛的人都有数据挖掘背景,但胜利者却来自于不同的领域,这可能是因为他们能从全新的角度来分析问题,高德布鲁说。
芭芭拉·周(Barbara Chow)是威廉和弗洛拉·休利特基金会(William and Flora Hewlett Foundation)的教学总管,她希望这种创造性的方法能帮助其团队的难题,就是寻找自动给学生论文打分的好方法。这个提供6万美元大奖的竞赛将于4月30日结束,并与一个私人性质的比赛同时进行,该比赛包括已经致力于自动论文评分领域的大公司。
尽管她不确定Kaggle的社区是否得到最佳答案,但周说,因为网站“能找到合适的人选”,所以休利特基金会就决定试验其难题。
库克斯科是其中之一——他的团队认真的进行着比赛,尽最大努力实现自动提供并创建接近真人评分的方法。他们的进展如何呢?“初步结果显示,我们已经非常接近于真人评分了,”他说。
- Kaggle.com的数据挖掘大奖赛
- Kaggle(1):数据挖掘的基本流程
- 数据挖掘-kaggle
- kaggle数据挖掘竞赛初步--Titanic<数据变换> 完整代码: https://github.com/cindycindyhi/kaggle-Titanic 特征工程系列: Titanic
- Kaggle: 数据挖掘竞赛
- kaggle数据挖掘比赛经验
- 介绍Kaggle上各种数据挖掘应用的文章
- 大数据挖掘的淘金之旅-Kaggle应用介绍
- Kaggle 数据挖掘比赛经验分享
- Kaggle 数据挖掘比赛经验分享 (转载)
- Kaggle 数据挖掘比赛经验分享 (转载)
- Kaggle 数据挖掘比赛经验分享 (转载)
- 【干货】Kaggle 数据挖掘比赛经验分享
- 【干货】Kaggle 数据挖掘比赛经验分享
- 【干货】Kaggle 数据挖掘比赛经验分享
- 【干货】Kaggle 数据挖掘比赛经验分享
- Kaggle 数据挖掘比赛经验分享
- 【干货】Kaggle 数据挖掘比赛经验分享(mark 专业的数据建模过程)
- 我的vimrc
- C泛型___函数
- 十三. Sql server avg函数
- oracle 表空间迁移,移动表空间
- 第一个Ajax程序
- Kaggle.com的数据挖掘大奖赛
- QBC查询
- struts2 获取request、session的方法
- C泛型__数据结构
- 每个初学者都应该搞懂的问题
- android短信接收过程
- 面试必备之:MFC socket编程(浅出+深度:服务端和客户端端口问题)
- java算法:递归算法
- PHP – 架構設計 Data Access Layer 篇