分布式计算之旅（一）

来源：互联网发布：2017双11淘宝和京东编辑：程序博客网时间：2024/05/31 19:04

偶然间，听同事介绍自己正在做推荐引擎，由于原来做的大多为ERP系统，对个新的词汇我有点不知所措。习惯性的点开了chrome，在Google的搜索框内敲下了推荐引擎这几个大字。在百度百科里面查到了它的定义：是建立在对每一个用户的信息和行为深刻了解的基础之上，为用户提供个人化信息的技术，它不是被动等待用户的搜索请求，而是为用户主动推送最相关的信息。推荐引擎将结合搜索引擎技术，一并为用户提供最完美的信息解决方案。

概念有点抽象，我们还是看看更加具体的功能。我想大家都用过淘宝的吧？生活一个在高房价，高油价，通胀不断加剧的年代，作为一个典型的无房无车无老婆的三无的都市80后，省钱是你必修的功课，我们要花最少的钱买到最好的东西。淘宝给了这么一个让你省钱的空间！怎么好像在给淘宝做广告，先声明我不是托，其实我也不是经常上淘宝，只是对淘宝的一个肯定和支持。

在淘宝里你查看一个宝贝后会在最下面一栏显示出其它对当前宝贝有兴趣的人还对哪些宝贝有兴趣。这个功能实际是就是一个典型的用户推荐，也就是推荐引擎的一种表现。你类似的功能在其它很多网站上也能看的到，像一些购书网站会推荐一些感兴趣的书，还有一些旅游网站，等等！

到现在大家应该对推荐引擎要完成的功能有了一个比较直观的了解，作为程序员可不能只停留在表相上面，我们的进一步挖掘它的技术实现，这样才能在这个日新月异的IT行业立足。在思想进行一些激烈碰撞后，可以肯定下面两点：1.推荐引擎是基于已有用户的数据进行的信息挖掘，2.给所有用户进行一个个性化的推荐是一个计算量相当大的过程。简化一点能得到——海量数据大量计算。于是我又点开了Chrome, 输入了“海量数据计算”，然后我便从结果中找到了一个java针对海量数据分布式计算的解决方案——Hadoop: The Apache™ Hadoop™ software library is aframework that allows for the distributed processing of large data sets acrossclusters of computers using a simple programming model.

这样我便开始了我的分布式计算的学习之旅。