大数据分析的众包平台—Kaggle

来源：互联网发布：java修饰符编辑：程序博客网时间：2024/05/10 11:42

原文地址: http://www.china-cloud.com/yunhudong/yunzhuanlan/zhuanlanrenwu/chen_/2013/0118/17375.html

2013-01-18 09:51

众包（Jeff Howe，2006）是一种在互联网蓬勃发展的背景下产生的一种创新的生产组织形式。在这样的商业模式下，企业利用网络将工作分配出去，通过让更合适的人群参与其中来发现创意和解决技术问题。比较成功的众包例子有像 wikipedia 这样的知识贡献类平台，GitHub 这样的 IT 类平台，也有我们要着重介绍的大数据分析类的众包平台 Kaggle。

Kaggle 的工作方式如图中右上角的流程所示。假设一个互联网广告公司收集了大量的关于用户广告点击行为的数据，想从这些数据中发现用户点击的规律、模式，希冀以此来优化广告投放、提高用户点击转化率。一种做法是，公司雇佣一个数据科学家团队来洞察数据，为决策提供支持。这种做法的成本可能比较高，小公司难以承受。Kaggle 提供了另外一种方式。公司可以将他们的数据、问题的描述、以及期望的指标整理后发布到 Kaggle 上，通过举办竞赛的方式让网上的数据科学家参与解决。数据分析师们或独立、或组队参加比赛，利用自己的专业知识和数据分析工具得到优化模型。最后，这些结果经过原定指标的检验，被公布到排行版上；最好的结果将获得竞赛的奖金（几百美元到几百万美元不等）。而公司也能最终拥有数据分析的结果、模型等知识产权。图中左表列出了Kaggle 上面一个问题的例子，这是关于 Twitter 对其用户的个性分析的案例。包含了训练集、测试集、示例代码和作为基准的随机森林模型。而右表则是排行版上前六位的团队以及他们在 loss 这个指标上的表现。

Kaggle 的流行是由两方面的因素决定的。首先，随着数据量的爆炸性增长，尤其是互联网企业掌握的数据越来越多，如何利用这些数据成为了决策者们所关心的问题。大多数依靠互联网挣钱的企业技术门槛较低，竞争激励。像 2010 年兴起的团购，一时间中国大地上出现了 5000 多家类似的公司，大家有着同样的网站模板，相似的业务，却没有任何差异化的东西。如何提高技术壁垒，脱颖而出，数据驱动（data-driven）成为了大家关注的焦点。商家们需要收集用户的行为数据，分析不同用户群体的行为规律，从而为商品的定向投放，精准推荐提供有力支持。另一方面，数据科学家成为了 21 世纪最稀缺的资源。Kaggle 总裁兼首席科学家 Jeremy Howard 认为一个伟大的数据科学家应具备创新、坚韧、好奇、深厚技术这四项素质。具备数据收集、数据改写、可视化、机器学习、计算机编程等技术的数据科学家使数据驱动决策并主导产品。根据 McKinsey 的预测，在未来 6 年，仅在美国本土就可能面临缺乏 14 万至 19 万具备深入分析数据能力人才的情况，同时具备通过分析大数据并为企业做出有效决策的数据的管理人员和分析师也有 150 万人的缺口。如何充分利用现有的数据科学家的专业知识来帮助有需要的企业实现数据驱动的业务支持，Kaggle 正是基于这样的想法，建立起了一个联通领域和专业技能的桥梁。

众包方式的大数据分析绝不仅仅只有 Kaggle 一家，类似的还有 CrowdAnalytix 和 TunedIT。而最早的学术界的 Kaggle 可以认为是从 1997 年开始的由 ACM 组织的 KDD CUP（知识发现和数据挖掘竞赛）。KDD 每年一次，涉及的领域从生物、营销、安全、医学，一直到最近火热的用户行为分析和社交网络分析。比如，今年（KDD2012）的分析任务就是由腾讯微博提供，通过对微博的社交分析，期望预测出最有可能的关注（Follow）关系。

现在已经是“大数据”的时代，所有的人都预测在这个领域内将来会产生一批伟大的公司。目前，在 Kaggle 上吸引了将近六万的参与者，竞赛的内容也从单纯的预测性分析拓展到所有关于数据的创意，比如如何实现工作职位网站上的数据可视化。可以说，聚集了如此多智慧和机会的大数据众包平台 Kaggle 一定会成为这些伟大公司的一员，让我们拭目以待。