数据平台架构基于AWS的使用总结- Redshift优劣

来源：互联网发布：数控立车车床怎么编程编辑：程序博客网时间：2024/05/22 10:58

AWS Redshift优劣使用总结

标签（空格分隔）： Blog

AWS的数据仓库服务-Redshift，可以比较快速方便地实现数据仓库的基础模块，我们的数据仓库目前就是基于Redshift。

Why Redshift

可以快速地实现cluster存储，基本零运维
性能高、稳定性强(这一点可以查看参考链接1)

虽然是2014-02的数据，但是基本的情况足以说明，redshift在Scan、Aggregation、Join等各方面都表现出非常优越的领先优势。
而且目前的redshift也已经增加了对自定义函数(UDF)的支持，相信能够满足更多人的选择.
当时我们的日志解析模块使用EMR，结果存储在S3，很天然地选择Redshift来作为后续的存储和计算。
整个集群会做镜像，可以实现快速恢复及集群拷贝.

以上更多是我们的选择考虑，下面来聊一聊觉得需要考虑的不好的地方：

Trade Offs

目前Redshift在中国区并未开放，包括挺多其他大数据相关服务。我们目前服务在新加坡节点
GFW的跨网络问题

我们的服务器是在国内，这个就必须谈到跨data
center的数据传输问题，类似的一个chain：中国区数据打包-> 上传新加坡节点的S3 -> 从S3 upload到新加坡节点的Redshift。
这个过程中遇到挺多网络的问题，包括后续很多在Redshift上的ETL工作，稳定性方面都将不可避免地面临网络问题

看起来好像都是节点区域的问题，然而。。哈哈，如果要跟Hive/更多其他选择放一起进行离线/近实时ETL还是有点其他的trade off的，具体放到下一篇基于AWS的数据平台架构使用总结- Redshift在ETL中不得不踩的坑

总结

Redshift有它很天然的优势，auto-scale、基本零运维，但是也有一些需要考虑的trade off，如果是在早期的阶段很推荐使用它来快速地搭平台，把更多的精力放到数据的分析、探索上，让数据发挥价值，帮助团队快速成长。

参考链接：
1. bigdata benchmark from berkeley

0 0