Hadoop和Spark学习日记3

来源:互联网 发布:复制淘宝店铺违规吗 编辑:程序博客网 时间:2024/06/02 03:07

1. Apache Kylin概览

解析:Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支

超大规模数据,它能在亚秒内查询巨大的Hive表。

 


2. QPS

解析:每秒查询率QPS是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准。


3. Load Balancer(负载均衡器) 

解析:LVS(Linux Virtual Server);Nginx等。


4. Oozie

解析:Oozie是管理Hadoop作业的工作流调度系统。


5. Snappy

解析:Snappy是一个C++的用来压缩和解压缩的开发包。其目标不是最大限度压缩或者兼容其他压缩格式,而是旨在

提供高速压缩速度和合理的压缩率。


6. HDFS Federation

解析:HDFS Federation是Hadoop为解决HDFS单点故障而提出的NameNode水平扩展方案。该方案允许HDFS创建

多个NameSpace以提高集群的扩展性和隔离性。


7. InfiniBand

解析:InfiniBand架构是一种支持多并发链接的“转换线缆”技术,在这种技术中,每种链接都可以达到2.5Gbps的运行

速度。这种架构在一个链接的时候速度是500MB/秒,四个链接的时候速度是2GB/秒,12个链接的时候速度可以达到

6GB/秒。


8. Slider

解析:将已存在的应用程序或者服务部署到YARN上。比如,HBase On YARN,Storm On YARN和Accumulo On 

YARN等。


9. Apache Accumulo 

解析:Apache Accumulo是一个可靠的、可伸缩的、高性能的排序分布式的Key-Value存储解决方案,基于单元访问

控制以及可定制的服务器端处理。使用Google BigTable设计思路,基于Apache Hadoop、Zookeeper和Thrift构建。


10. Thrift

解析:Thrift是一个软件框架,用来进行可扩展且跨语言的服务的开发。它结合了功能强大的软件堆栈和代码生成引

擎,以构建在C++,Java,Go,Python,PHP,Ruby,Erlang,Perl,Haskell,C#,Cocoa,JavaScript,

Node.js,Smalltalk,and OCaml这些编程语言间无缝结合的、高效的服务。


11. StreamDM

解析:用于Spark Streaming的数据挖掘软件。Spark Streaming数据被编成一个DStreams序列,内在地表示成一个

RDD序列。


12. ETL工具

解析:Apache Camel;Apache Kafka;Apatar;Heka;Logstash;Scriptella;Talend;Kettle。


13. DataX

解析:DataX是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、

Hive、MaxCompute(原ODPS)、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。


14. Lambda架构

解析:Lambda架构可分解为三层Layer,即Batch Layer,Real-Time (Speed) Layer和Serving Layer。

(1)Batch Layer:存储数据集,在数据集上预先计算查询函数,并构建查询所对应的View。Batch Layer可以很好的

处理离线数据,但有很多场景数据是不断实时生成且需要实时查询处理,对于这情况,Speed Layer更为适合。

(2)Speed Layer:Batch Layer处理的是全体数据集,而Speed Layer处理的是最近的增量数据流。Speed Layer为

了效率,在接收到新数据后会不断更新Real-time View,而Batch Layer根据全体离线数据集直接得到Batch View。

(3)Serving Layer : Serving Layer用于合并Batch View和Real-time View中的结果数据集到最终数据集。


15. Kappa架构

解析:比Lambda更好更灵活的实时处理架构。


16. ZooKeeper中的zoo_sample.cfg

解析:

(1)tickTime:Zookeeper服务器间或客户端与服务器间维持心跳时间间隔,即每隔tickTime时间会发送一个心跳。

(2)dataDir:Zookeeper保存数据的目录,默认情况下,Zookeeper将写数据的日志文件也保存在这个目录里。

(3)dataLogDir:Zookeeper保存日志文件的目录

(4)clientPort:客户端连接Zookeeper服务器的端口,Zookeeper会监听这个端口,接受客户端的访问请求。


参考文献:

[1] Apache Kylin:http://kylin.apache.org/cn/