数据平台架构基于AWS的使用总结- Redshift优劣
来源:互联网 发布:数控立车车床怎么编程 编辑:程序博客网 时间:2024/05/22 10:58
AWS Redshift优劣使用总结
标签(空格分隔): Blog
AWS的数据仓库服务-Redshift,可以比较快速方便地实现数据仓库的基础模块,我们的数据仓库目前就是基于Redshift。
Why Redshift
- 可以快速地实现cluster存储,基本零运维
性能高、稳定性强(这一点可以查看参考链接1)
虽然是2014-02的数据,但是基本的情况足以说明,redshift在Scan、Aggregation、Join等各方面都表现出非常优越的领先优势。
而且目前的redshift也已经增加了对自定义函数(UDF)的支持,相信能够满足更多人的选择.当时我们的日志解析模块使用EMR,结果存储在S3,很天然地选择Redshift来作为后续的存储和计算。
整个集群会做镜像,可以实现快速恢复及集群拷贝.
以上更多是我们的选择考虑,下面来聊一聊觉得需要考虑的不好的地方:
Trade Offs
- 目前Redshift在中国区并未开放,包括挺多其他大数据相关服务。我们目前服务在新加坡节点
- GFW的跨网络问题
我们的服务器是在国内,这个就必须谈到跨data
center的数据传输问题,类似的一个chain:中国区数据打包-> 上传新加坡节点的S3 -> 从S3 upload到新加坡节点的Redshift。
这个过程中遇到挺多网络的问题,包括后续很多在Redshift上的ETL工作,稳定性方面都将不可避免地面临网络问题
看起来好像都是节点区域的问题,然而。。哈哈,如果要跟Hive/更多其他选择放一起进行离线/近实时ETL还是有点其他的trade off的,具体放到下一篇 基于AWS的数据平台架构使用总结- Redshift在ETL中不得不踩的坑
总结
Redshift有它很天然的优势,auto-scale、基本零运维,但是也有一些需要考虑的trade off,如果是在早期的阶段很推荐使用它来快速地搭平台,把更多的精力放到数据的分析、探索上,让数据发挥价值,帮助团队快速成长。
参考链接:
1. bigdata benchmark from berkeley
- 数据平台架构基于AWS的使用总结- Redshift优劣
- AWS云数据仓库Redshift,让您的数据飞起来
- 基于AWS的广告服务应用架构
- 基于AWS的媒体共享系统架构
- 基于AWS的时序处理应用架构
- 基于AWS云服务的大数据与大规模计算的应用架构
- 无状态大数据架构下的AWS与Azure使用对比
- 基于AWS的云服务架构最佳实践
- 基于AWS云服务的Web应用架构
- 基于AWS的媒体内容服务应用架构
- 基于AWS云服务的批处理系统架构
- 基于AWS的远程灾备系统架构
- 基于AWS的文件同步服务系统架构
- 基于AWS的web日志分析系统架构
- 基于AWS的金融服务网格计算系统架构
- 基于AWS的电子商务网站架构——Web前端
- 基于AWS的电子商务网站架构——结账服务
- 亚马逊AWS在线系列讲座——基于AWS云平台的高可用应用设计
- Java通过文件路径下载文件
- SQL Server学习记录之获取每月每季度每年第一天和最后一天
- 字符串排序
- AndroidStudio项目从低版本导入到高版本出现的问题
- Educational Codeforces Round 5 E. Sum of Remainders 数论
- 数据平台架构基于AWS的使用总结- Redshift优劣
- 重学C++ (五) 函数
- 使用maven编译dubbo,导入eclipse(其他maven开源项目编译类似)
- iOS(五)基于XMPP的聊天:一
- [solr] - IKAnalyzer 分词加入
- Android网络时间同步
- SharedPreferences的四种模式
- 01-websocket
- AwesomePlayer Q&A (一)