Cloud tools

来源:互联网 发布:淘宝代理货源靠谱吗 编辑:程序博客网 时间:2024/05/18 23:24

1. hadoop

不支持realtime计算,因为它是based on HDFS的,而HDFS上的文件不能用append。(但可以用磁盘管理来实现append操作)和Reduce必须要等待mapper,中间还有一个sort过程。

不适合做计算

sort使用128路归并,

数据格式都是(key,value)对,且不会丢数据,因为每个文件都会有一份copy存在Grid上。


2. strom

基于stream的pipe方式,用memory计算,小数据,不比hadoop的大数。

数据格式tuple用于传递message。会丢数据。

3. spark

http://spark.incubator.apache.org/index.html


scala:

http://www.scala-lang.org/

4.

http://www.csdn.net/article/2013-12-30/2817969-RSS-big-data

高能物理文献信息所采用最先进的开源内容管理系统 Drupal,开源搜索技术 Apache Solr,以及Google员工开发的能实时订阅新闻的 PubSubHubbub技术和Amazon的 OpenSearch,建立了一套高能物理信息监测系统,有别于传统的RSS订阅和推送,实现了几乎实时的信息抓取和任意关键词、任意类别、复合条件新闻的主动推送。