最近分布式系统开发小结
来源:互联网 发布:全球云计算开源峰会 编辑:程序博客网 时间:2024/06/01 07:49
用最简单的语言梳理一下最近十天做的分布式系统模块的开发。这是一个还在开发中的项目,配图也是设计原图。希望能更多地从开源项目里汲取营养,一边实战,一边积累。
系统概述
最近在设计和开发一个分布式系统的流式处理模块,整个系统用于跨集群、跨机房搬运不同数据源内的数据到另一份或多份数据源上,包括HDFS、MySQl、MongoDB、FTP等。功能比较像Hadoop的Sqoop,但是能扩展支持更多的数据源,且本身是个集群部署,不像Sqoop需要依赖Hadoop的MR。
我们整个cluster的资源管理借助Mesos来完成,由自己定制的Mesos Scheduler向Mesos Master申请可用的资源,具体把数据搬运的任务分发到Mesos Slave的Executor上,而我主要负责的就是Slave模块,包括Slave上Executors的实现、不同Slave上Executor之间的通信、消息处理、每次Task的容错和可靠性等内容。
Executor设计
一共有三种Executors,简单分为Input、Cache、Output,直观理解Input就是读取数据源,Cache用于从input到output的缓存,Output是获取cache里的数据,向目标数据源
导出数据。
Executor具体涉及到下面一些问题:
1. Executor之间的网络通信
2. 数据流里每个Tuple在网络中的序列化、压缩等流通问题
3. 消息队列
4. 其他:多线程、双队列缓存设计、状态记录等
我们还具体考虑了Input、Cache、Output分别挂掉要怎样继续去执行整个数据流的搬运,这里涉及到了把一些描述和状态更新统一写到Zookeeper里,需要Cache模块做对消息的钝化/checkpoint/JournalLog。
整个模块的设计图如下:网络通信
我今天参考了Storm0.9.0里新增加的Netty模块,优化了下Slave模块里的Netty部分。其实Storm里的Netty部分蛮简单,比较我们想要做的实现更简单,主要体现在两处:
1. Cache作为Netty Server,既要接收InputClient的写,又要接受OutputClient的读请求。
2. Cache交互的Queue不是一个java concurrent包里的某个Queue容器,而是一个轻量级的workqueue:beanstalkd消息队列
采用的是beanstalkd,每个tube对应一个output,之前的博文介绍了beanstalkd。
数据流通
数据的序列化和反序列化,本来想要使用kryo这样的在开源软件中经常见到的高效工具。后来参考了Storm里的TaskMessage结构,发现不如直接把POJO设计成一个byte[],自己定义一下byte数组的结构来的更高效。毕竟一个java对象转bytes,再高效也不如直接拼byte[]快。
数据压缩方面Snappy有很快的压缩速度。Storm设计参考
其实我们的Input比较像Storm的spout,Cache和Output比较像bolt,但是又没有Storm里的shuffle grouping等机制,Input与Cache是指定的一对一的,Cache与Output是一对多,而这些对应关系会在物理执行计划模块里生成。
在Storm的设计里,参考了它的Acker。Storm能保证消息不会丢失,并且每条消息都会被完整处理,即这个tuple以及由这个tuple所导致的所有的tuple都被成功处理。而一个tuple会被认为处理失败了如果这个消息在timeout所指定的时间内没有成功处理。能做到这点,他的Acker起到了很重要的作用。(Arker模块的设计和源码分析)
我们打算做一个Acker模块,但消息的执行状态和更新会写在znode上,让Arker模块与ZK打交道,然后去更新Beanstalkd里已经reserve了的job。有时间还要把Storm的源码和模块仔细读读,尽量能多参考一些设计思路。
- 最近分布式系统开发小结
- 最近分布式系统开发小结: Slave模块Executors设计
- 最近半个月开发小结
- 最近开发Qt的一点小结
- 分布式系统开发
- 求教分布式系统开发
- 开发工资系统小结
- 最近小结
- 最近小结
- 分布式开发--分布式追踪系统
- linux分布式系统开发心得
- 分布式系统开发调度技术
- 订单管理系统开发小结
- 最近在研究OA系统开发和DIRECTX系统.
- 小白学分布式程序开发3-分布式系统的数据一致性问题
- mapreduce程序开发及伪分布式调试小结
- 面向对象的分布式开发系统 (一)
- 面向对象的分布式开发系统 (二)
- 题目1074:对称平方数
- Android Shape Drawable Resources
- C#和Java变量命名区别(分析有误请指出,刚接触C#还在学习中)
- Android Fragment系列学习笔记之三
- leetcode Implement strStr()
- 最近分布式系统开发小结
- RedHat : SAMBA 服务
- spket.jar不不能win7 64位解决办法
- dede5.7织梦后台广告插件增加图片上传功能
- Delphi7文件操作常用函数一
- 卡尔曼滤波器 – Kalman Filter
- Android PopupWindow介绍及实现菜单效果
- STM32F10x 学习笔记之SysTick 定时器
- 美剧字幕组长讲述她如何练听力的