2011hadoop技术大会实时数据分析
来源:互联网 发布:手机新浪博客网络异常 编辑:程序博客网 时间:2024/05/21 15:47
facebook在这次大会上谈了facebook的进展。他们以前架构是
applicationserver 将日志近乎实时的通过facebook自己的流传送工具scribe,传送到nfs。然后通过一个copyier或者loader(这里考虑应该是使用hive的load 到hive内表中)每小时载入hive/hadoop,r然后通过每天的pipeline jobs 运行任务 将结果存入mysql。
这个架构使用scribe保证了日志的流传送;使用mapreduce运算job,隐藏了单一节点的失败,增强了容错性。通过hive简化mapreduce分析,也具有非常好的系统伸缩性。但是延迟比较严重。mapreduce本身还是倾向于批量job的运行,而非实时job运行!
结合目前部门的架构,部门内也是借鉴facebook,使用其scribe来传送数据。和facebook不同的是,scribe经过数级转接后直接通过末端的scribe入hdfs。然后使用dip-data-analyze 调度任务运行。这样的架构可以满足 批量job,但是实时性不好。为了支持一些比较实时的计算,目前是暂时通过分钟任务运行,也算一种无奈吧。
facebook ppt中一句话 对于实时性德建议:
rpc push数据 和从fs拉数据的性能对比。
Data Freeway consists of 4 components that allows data transfer between these 2 channels.
下一个是 Puma。负责实时的aggregation/storage(聚合/存储)。等待持续更新。。。。
- 2011hadoop技术大会实时数据分析
- Hadoop与大数据技术大会 2012
- Hadoop与大数据技术大会
- 2012 Hadoop与大数据技术大会
- 2012 Hadoop与大数据技术大会有感
- HBTC2012 Hadoop与大数据技术大会,感受
- 2012 Hadoop与大数据技术大会盛大开幕
- Hadoop与大数据技术大会2012PPT阅读笔记
- Hadoop与大数据技术大会2012PPT阅读笔记
- HADOOP大数据离线分析+实时分析框架;Hadoop+Flume+Kafka+Storm+Hive+Sqoop+mysql/oracle
- 多线程技术在数据实时采集分析中的应用
- 数据实时同步或抽取上收的技术分析
- 多线程技术在数据实时采集分析中的应用
- 多线程技术在数据实时采集分析中的应用
- HBTC 2012 Hadoop与大数据技术大会演讲PPT资料
- 参加2013年hadoop技术大会总结
- HADOOP离线分析+实时分析框架使用技术框架Hadoop+Flume+Kafka+Storm+Hive+Sqoop+mysql/oracle
- 大数据实时计算工程师/Hadoop工程师/数据分析师职业路线图
- 【黑马程序员】登录时防止SQL注入漏洞攻击
- Java Servlet Filter tutorial example using Eclipse & Tomcat
- 设计模式(java)
- 深入理解C/C++数组和指针
- IsPostBack解释
- 2011hadoop技术大会实时数据分析
- C# 如何提取SaveFileDialog的保存路径?
- 树状数组专题(三)POJ2481
- http://projecteuler.net/problem=36 [Answer:872187]
- 探索式测试学习笔记之一:局部探索式测试法
- 用javascript实现音乐播放
- C#应用程序中调用打开某文档(如: IE)
- 留一些回忆
- LINUX动态链接库的创建与使用