复杂的大数据技术栈
来源:互联网 发布:桶包 知乎 编辑:程序博客网 时间:2024/06/06 03:10
提到大数据,很多人可能都听说过4V - Big Volume, Big Velocity, Big Variety, Big Value,大数据从业人员的工作内容也都和这4个V中的某些内容密切相关。
相比较传统的数据库技术,大数据的技术栈在过去几年取得非常迅速的发展,尤其是Hadoop和Spark已经构建了一个庞大的技术生态圈。
文件系统方面,除了传统的行式存储,还有新的列式存储格式如ORC,Parquet,以及一些新型的用SSD或者内存加速的存储,如Transwarp Holodesk以及Tachyon。此外,还有Ceph等新型文件系统。
在文件系统之上,各种存储引擎也迅速发展,如NoSQL类的HBase,MongoDB,CouchDB,它们在一些大数据场景下表现的非常出色(如高并发,文档存储等),而放弃另外一些特性,如事务和SQL支持;不过近年也涌现出一些新的NoSQL存储引擎,重新拾起来SQL和事务,如VoltDB,CockroachDB,以及Transwarp Hyperbase。
计算引擎的发展更是日新月异,可以按照批处理/交互式/流式/迭代式做个大体的分类。
批处理引擎在大数据领域发展的最快,MapReduce,Spark,Tez等已在大规模商用;
交互式分析引擎的代表有Dremel,Presto,Impala等,目前还处于未能完全证明商用能力,但是在快速发展并且验证的阶段;
流式引擎这两年发展很快,Spark Streaming/Flink/Storm/Samza是其中的代表;
迭代式引擎有Graphx,Pregel,以及Transwarp Graphene等。
数据分析领域,各种工具更是层出纷纭,如Hive,Mahout,MLlib,R,Kylin等。
数据集成和调度工具也有很多的开源项目涌现出来,如Oozie,Azkaban,Crunch,Sqoop,Flume,Kafka等等。
因为这么复杂的技术栈,以及各种层出不穷的新技术,开发者会面临着极大的学习成本,以及很困难的选型考量。如何选择更合适的技术方案,如何做基于大数据的新的应用的开发,如何去管理和运维大数据产品,这是新技术时代的主要问题。
- 复杂的大数据技术栈
- 大数据量表的复杂查询
- 大数据技术栈
- 大数据 技术栈
- 大数据技术的发展趋势
- 大数据技术的发展趋势
- 大数据技术的发展趋势
- 大数据技术的发展趋势
- 大数据技术的具体内容
- 大索引技术,大数据的未来
- 大索引技术,大数据的未来
- 大索引技术,大数据的未来
- 十大热门的大数据技术
- 大索引技术大数据的未来
- 大索引技术大数据的未来
- 大索引技术大数据的未来
- 大索引技术大数据的未来
- 大数据只是复杂商业智能的另一个名字
- 面试题2
- DPCM 压缩系统的实现和分析
- 单例模式
- 直接插入排序
- Java自学004GUI组件与用户界面
- 复杂的大数据技术栈
- O(logn)时间复杂度求Fibonacci数列
- jqgrid表格下拉搜索多选框优化—使用select下拉多选插件
- Jam
- Eclipse中成对标签的呈现方式更改
- 网络地址转换NAT
- JZOJ2133.2017.05.20【usaco2017_Mar Bronze & Silver】C组T1The Lost Cow
- MTK平台下Battery驱动分析及充电流程
- 2015蓝桥杯决赛 关联账户(并查集,水)