4年后Hadoop的再回首

来源:互联网 发布:centos vsftpd 根目录 编辑:程序博客网 时间:2024/05/02 04:30

居然无意中搜到了几年前我讨论的帖子,造化弄人,如今我已经管理着321台服务器组成的hadoop集群。现在回顾一下这个讨论还是值得的:
1. Hadoop的稳定性的确不错,比如task attempt failed, 但是绝大多数会被重试后成功。
2. Hadoop是离线计算框架,用它来做低延迟的实时性计算肯定是错误的,应该用Spark/Storm等来代替。老实说,慢的可以。绝对不能将其作为互联网应用的直接后台服务。
3. Hadoop的高效是指大数据处理的高效,可是已经昨日黄花了。MapReduce之间写磁盘(落地)太多,多迭代任务中间大量的HDFS读/写,都是慢的根源。还是Spark等新的不落地框架有更好的优势。毕竟大数据现在走向实时和图计算模型的时代,将来还会有更好的技术出现。
4. Hadoop是Java实现的,在竞争中的确不如C++。MapR FS相对于HDFS,性能快2-7倍,关键是由于C/C++实现的Linux 文件系统,和HDFS的用Java应用程序模拟文件系统相比,突破了内存(JVM)的限制,因此可以在单节点上轻松的达到100TB+以上的存储容量。这个对于上百PB存储需求的公司来讲,节省的成本是千万级别的。由于这个JVM的限制, 同时也造成namenode保存元数据的困难,不得已需要federation来克服,4000+对于Hadoop管理者来讲是个很大的难关。
5. 至于MPI,这么多年都没有机会真正用过。无法评价。


原讨论帖子:

Hadoop的昨天与今天



1 0
原创粉丝点击