Hadoop 在百度的应用
来源:互联网 发布:淘宝宝贝描述代码下载 编辑:程序博客网 时间:2024/05/21 11:12
Hadoop集群在百度的应用
百度对海量数据处理的要求是比较高的,要在线下对数据进行分析,还要在规定的时间内处理完并反馈到平台上在百度,Hadoop 集群 主要应用于以下几个方面:
·日志的存储和统计;
·网页数据的分析和挖掘;
·商业分析,如用户的行为和广告关注度等;
·在线数据的反馈,及时得到在线广告的点击情况;
·用户网页的聚类,分析用户的推荐度及用户之间的关联度。
MapReduce主要是一种思想,不能解决所有领域内与计算有关的问题,百度的研究人员认为比较好的模型应该如下图所示,HDFS实现共享存储,一些计算使用MapReduce解决,一些计算使用MPI解决,而还有一些计算需要通过两者来共同处理。因为MapReduce适合处理数据很大且适合划分的数据,所以在处理这类数据时就可以用MapReduce做一些过滤,得到基本的向量矩阵,然后通过MPI进一步处理后返回结果,只有整合技术才能更好地解决问题。百度现在拥有3个Hadoop集群,总规模在700台机器左右,其中有100多台新机器和600多台要淘汰的机器,不过其规模还在不断的增加中。现在每天运行的MapReduce任务在3000个左右,处理数据约120TB/天.......
转自:http://leezk.com/2013/09/hadoop/hadoop-%E9%9B%86%E7%BE%A4-428
- Hadoop 在百度的应用
- hadoop在国内的应用,百度,阿里
- hadoop应用案例的分析:在百度中的应用
- Hadoop应用案例分析:在百度中的应用
- [COPY]Hadoop应用案例分析:在百度中的应用
- Hadoop在百度的应用--4000个节点的分布式集群
- Hadoop在百度的应用--4000个节点的分布式集群
- Hadoop在百度的应用--4000个节点的分布式集群
- Chukwa在百度的应用实践
- Chukwa在百度的应用实践
- 论文:Hadoop在Facebook的实时应用
- hadoop应用在哪些地方
- [Hadoop] 实际应用场景之 - 百度
- [Hadoop] 实际应用场景之 - 百度
- Hadoop实际应用场景,阿里和百度
- PHP在百度的应用现状及展望
- 在自己的web应用中添加百度搜索
- 如何在自己的应用中使用百度离线地图
- 面试题-基础-网格移动路径算法
- 编程珠玑第五章
- 我的 “child—>m_pParent ==0” 的异常
- static关键字
- python脚本生成器
- Hadoop 在百度的应用
- zigzag数组
- 简单正则表达式匹配字符串
- 如何自定义Intent.createChooser的显示结果
- android+ndk+Cygwin+cdt+sequoyah简要笔记
- 【String疑难解惑】面试题中常见的String类问题?
- n*n的ZigZag数组
- org.codehaus.groovy.grails.cli.support.GrailsStarter错误解决办法
- SOA,不看你永远不知道的事