Kaggle.com的数据挖掘大奖赛

来源:互联网 发布:澳门网络博客官方网站 编辑:程序博客网 时间:2024/05/21 14:51

旧金山的大雾或纽约的交通是很容易预测的。但其它的东西,如股市对大额交易的反应或HIV患者病情的发展状况,是非常复杂的。这就是新创公司Kaggle.com打算做的事情。该公司组织了一场竞赛,参与者通过分析大量数据来尝试做出似乎不可能的预测。

Kaggle聚集了许多有数据科学背景的人,包括博士、研究生、教授和在IBM、谷歌等公司工作的人,为它们提供机会来竞争解决大数据难题,并赢得奖金。竞赛主办方提供数据给用户,用户用定制的算法来发现模型并进行最精确的预测。你可以把竞赛想象成一场预测建模的生死决斗。

Kaggle公司由澳大利亚经济学家安东尼金·高德布鲁(Anthony Goldbloom)所创办,他们从网飞公司Netflix于2006年至2009年举办的比赛中得到灵感。在那次比赛中,对于可以提高其电影推荐软件10%精确度的团队,该公司提供了100万美元的奖金。

Netflix比赛非常受欢迎,这让高德布鲁知道,很多人都对企业中与数据相关的难题感兴趣。2008年在经济学家杂志(The Economist)的实习经历告诉他,许多企业的数据都能够挖掘出有价值的信息,但没有合适的人来研究。

他打赌说公司可以把两方面结合起来,并设想,采用竞赛的方式可能会有更好的结果。

于是他就开始了这项工作。自从2010年4月开始用1000美元来奖励能最精确预测出欧洲电视歌唱大赛(Eurovision Song Contest)参加人数的团队,Kaggle已经组织了30场不同的竞赛,其中5个仍在进行中。

已经发展至2万7000人的Kaggle社区,正在获得成果。在早期的挑战中,德雷赛尔大学(Drexel University)的一位学者提供了匿名的HIV记录,这里面包括他希望可用于预测病毒发展的基因标记数据。只用了一周半的时间,Kaggle的用户就预测到了病毒的发展,与已知数据比较后,发现精度为70%——这是在仅用四年的努力之后,学术研究达到的一个里程碑。三个月的竞赛最后,网站用户已经创建了一个模型,可以减少了之前三分之一的错误率,把预测精确度提高到了77%。

高德布鲁说,网站吸引参与者的是在排行榜排名上升的兴奋感。提交最好解决方案的人将升至排名榜的最高级,这是用户喜欢的。“大家都想不断上升排名,”高德布鲁说。

威尔·库克斯科(Will Cukierski)是罗格斯大学(Rutgers University)生物医学工程的博士生,他不仅喜欢提高排名,还把这种竞争看做是在就业市场上占据优势的方法。他参加了大约6个Kaggle竞赛,其中一个获得第一名,其它的也都名列前茅。“这件事情有点意思,还有点商业性质”,他说。

尽管大多数参与Kaggle竞赛的人都有数据挖掘背景,但胜利者却来自于不同的领域,这可能是因为他们能从全新的角度来分析问题,高德布鲁说。

芭芭拉·周(Barbara Chow)是威廉和弗洛拉·休利特基金会(William and Flora Hewlett Foundation)的教学总管,她希望这种创造性的方法能帮助其团队的难题,就是寻找自动给学生论文打分的好方法。这个提供6万美元大奖的竞赛将于4月30日结束,并与一个私人性质的比赛同时进行,该比赛包括已经致力于自动论文评分领域的大公司。

尽管她不确定Kaggle的社区是否得到最佳答案,但周说,因为网站“能找到合适的人选”,所以休利特基金会就决定试验其难题。

库克斯科是其中之一——他的团队认真的进行着比赛,尽最大努力实现自动提供并创建接近真人评分的方法。他们的进展如何呢?“初步结果显示,我们已经非常接近于真人评分了,”他说。