4年后Hadoop的再回首

来源：互联网发布：centos vsftpd 根目录编辑：程序博客网时间：2024/05/02 04:30

居然无意中搜到了几年前我讨论的帖子，造化弄人，如今我已经管理着321台服务器组成的hadoop集群。现在回顾一下这个讨论还是值得的：
1. Hadoop的稳定性的确不错，比如task attempt failed, 但是绝大多数会被重试后成功。
2. Hadoop是离线计算框架，用它来做低延迟的实时性计算肯定是错误的，应该用Spark/Storm等来代替。老实说，慢的可以。绝对不能将其作为互联网应用的直接后台服务。
3. Hadoop的高效是指大数据处理的高效，可是已经昨日黄花了。MapReduce之间写磁盘（落地）太多，多迭代任务中间大量的HDFS读/写，都是慢的根源。还是Spark等新的不落地框架有更好的优势。毕竟大数据现在走向实时和图计算模型的时代，将来还会有更好的技术出现。
4. Hadoop是Java实现的，在竞争中的确不如C++。MapR FS相对于HDFS，性能快2-7倍，关键是由于C/C++实现的Linux 文件系统，和HDFS的用Java应用程序模拟文件系统相比，突破了内存(JVM)的限制，因此可以在单节点上轻松的达到100TB+以上的存储容量。这个对于上百PB存储需求的公司来讲，节省的成本是千万级别的。由于这个JVM的限制，同时也造成namenode保存元数据的困难，不得已需要federation来克服,4000+对于Hadoop管理者来讲是个很大的难关。
5. 至于MPI，这么多年都没有机会真正用过。无法评价。

原讨论帖子：

Hadoop的昨天与今天

1 0