4年后Hadoop的再回首
来源:互联网 发布:centos vsftpd 根目录 编辑:程序博客网 时间:2024/05/02 04:30
居然无意中搜到了几年前我讨论的帖子,造化弄人,如今我已经管理着321台服务器组成的hadoop集群。现在回顾一下这个讨论还是值得的:
1. Hadoop的稳定性的确不错,比如task attempt failed, 但是绝大多数会被重试后成功。
2. Hadoop是离线计算框架,用它来做低延迟的实时性计算肯定是错误的,应该用Spark/Storm等来代替。老实说,慢的可以。绝对不能将其作为互联网应用的直接后台服务。
3. Hadoop的高效是指大数据处理的高效,可是已经昨日黄花了。MapReduce之间写磁盘(落地)太多,多迭代任务中间大量的HDFS读/写,都是慢的根源。还是Spark等新的不落地框架有更好的优势。毕竟大数据现在走向实时和图计算模型的时代,将来还会有更好的技术出现。
4. Hadoop是Java实现的,在竞争中的确不如C++。MapR FS相对于HDFS,性能快2-7倍,关键是由于C/C++实现的Linux 文件系统,和HDFS的用Java应用程序模拟文件系统相比,突破了内存(JVM)的限制,因此可以在单节点上轻松的达到100TB+以上的存储容量。这个对于上百PB存储需求的公司来讲,节省的成本是千万级别的。由于这个JVM的限制, 同时也造成namenode保存元数据的困难,不得已需要federation来克服,4000+对于Hadoop管理者来讲是个很大的难关。
5. 至于MPI,这么多年都没有机会真正用过。无法评价。
原讨论帖子:
Hadoop的昨天与今天
1 0
- 4年后Hadoop的再回首
- 五年后再回首
- 设计模式15年后再回首
- ajax的再回首
- 再回首2014的精彩
- 再回首。。。
- 再回首
- 再回首
- 再回首
- 艾滋传言让韦唯无缘北京亚运 20年后回首往事
- 再回首线程与进程的
- 再回首--我的自考之路
- 再回首,别了难忘的2014
- 再回首—SQLhelper的编写
- 20年的星际争霸,再回首
- 回首过去的那些事儿(4)
- 程序设计师4年后的感言
- 再回首往事如梦,再回首。。。。。。
- Android学习笔记之项目环境搭建
- 从 bufferevent 实现学习 Libevent 的使用
- ASP+AJAX简单实例
- Android 下拉刷新控件SwipeRefreshLayout结合WebView使用
- Hadoop-2.6.0伪分布--安装配置hbase
- 4年后Hadoop的再回首
- 关于AJAX一个简单的例子
- 2015—01—26 Shell学习笔记 《变量的数值计算》(1)
- 在低头赶路的同时, 也要常常抬头看看方向
- 第二章 Hadoop2.x 应用开发step by step——Hadoop2.x及其生态系统
- errorlog命令
- C++ 并发编程的一种思维 — Theron 库简述
- sublime快捷键
- FullCalendar如何实现minTime,slotDuration动态更新