Spark学习笔记(31)Kafka原理内幕和集群构建与测试实战
来源:互联网 发布:html 炫酷展示页源码 编辑:程序博客网 时间:2024/06/13 02:36
本期内容:
1. Kafka原理内幕
2. Kafka集群实战
Spark Streaming是处理层面的,Kafka相当于流程控制和数据控制的层面。
Kafka就是消息中间件。分布式的,可以扩展规模。可以对消息持久化。默认是7天,意思是,不管是否已消费,消息7天之后会被删除。有队列方式,也有发布者和订阅者方式。事务方面,kafka不行。是个粘合器,打破信息孤岛。
Kafka就是消息中间件。分布式的,可以扩展规模。可以对消息持久化。默认是7天,意思是,不管是否已消费,消息7天之后会被删除。有队列方式,也有发布者和订阅者方式。事务方面,kafka不行。是个粘合器,打破信息孤岛。
Kafka观点:数据时时刻刻是流动的。基于内核之间进行数据的交换,虽然数据在磁盘中,数据是近乎内存的速度。数据进出没有必要放入内存空间。
Kafka也可以是监控机器终端的CPU、内存等各种状况数据的消息中间件。理论上讲可以存储任意规模的数据。
可以处理离线、在线的数据。
Kafka不处理数据,没必要把数据放在Application的buffer上,而是基于内存的读取和传输,通过内核进行Socket传输。
Kafka是进行Topic消息分组。consumer基于Topic去获取数据。sendfile是文件数据交互的机制。重要的概念有上下文。
push、pull方式。使用Zookeeper注册和管理broker和consumer。
消息的一致性。Kafka中数据没有id,有offset。如果consumer出错,重新启动consumer,就可以从最近的offset开始处理。kafka自己保存offset。kafka无状态,数据是可以重复消费的。
、、、
阅读全文
0 0
- Spark学习笔记(31)Kafka原理内幕和集群构建与测试实战
- Spark定制班第32课:Kafka原理内幕和集群构建与测试实战
- 第32课:Kafka原理内幕和集群构建与测试实战
- Kafka原理和集群测试
- Kafka原理和集群测试
- kafka学习二:构建Kafka集群
- Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统
- Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统
- spark与kafka连接测试
- Spark学习八:spark streaming与flume和kafka集成
- kafka集群配置与测试
- Kafka学习笔记——Kafka原理与使用详解
- kafka学习笔记四:搭建Kafka集群
- Spark Streaming 实战(2) kafka+zookeeper+spark streaming 的windows本地测试Demo
- 生产环境实战spark (11)分布式集群 5台设备 Zookeeper集群、Kafka集群安装部署
- Spark集群搭建与测试
- Spark集群搭建与测试
- 第90讲,Spark streaming基于kafka 以Receiver方式获取数据 原理和案例实战
- XML 解析(转)
- Spark学习笔记(30)集群运行模式下的Spark Streaming调试
- linux中 vim 分屏指令(split)
- spark 加载多个目录; RDD输出到hdfs文件压缩
- Jmeter关联,正则表达式提取器使用
- Spark学习笔记(31)Kafka原理内幕和集群构建与测试实战
- 设计模式的应用场景(18)--命令模式
- 红黑树和二叉树
- centos6.5 网卡/etc/sysconfig/network: No such file or directory
- 如何使用RestTemplate访问restful服务
- JavaSE 循环结构
- Python中*和**的使用
- Pat(A) 1084. Broken Keyboard (20)
- JSON.parse问题(转)