Hadoop 在百度的应用

来源:互联网 发布:淘宝宝贝描述代码下载 编辑:程序博客网 时间:2024/05/21 11:12

Hadoop集群在百度的应用

   百度对海量数据处理的要求是比较高的,要在线下对数据进行分析,还要在规定的时间内处理完并反馈到平台上在百度,Hadoop 集群 主要应用于以下几个方面:   

·日志的存储和统计;   

·网页数据的分析和挖掘;   

·商业分析,如用户的行为和广告关注度等;   

·在线数据的反馈,及时得到在线广告的点击情况;   

·用户网页的聚类,分析用户的推荐度及用户之间的关联度。

       MapReduce主要是一种思想,不能解决所有领域内与计算有关的问题,百度的研究人员认为比较好的模型应该如下图所示,HDFS实现共享存储,一些计算使用MapReduce解决,一些计算使用MPI解决,而还有一些计算需要通过两者来共同处理。因为MapReduce适合处理数据很大且适合划分的数据,所以在处理这类数据时就可以用MapReduce做一些过滤,得到基本的向量矩阵,然后通过MPI进一步处理后返回结果,只有整合技术才能更好地解决问题。百度现在拥有3个Hadoop集群,总规模在700台机器左右,其中有100多台新机器和600多台要淘汰的机器,不过其规模还在不断的增加中。现在每天运行的MapReduce任务在3000个左右,处理数据约120TB/天.......

转自:http://leezk.com/2013/09/hadoop/hadoop-%E9%9B%86%E7%BE%A4-428