大数据企业架构以及产生的相关热门职位

来源：互联网发布：武术知乎编辑：程序博客网时间：2024/04/27 18:30

对于刚开始学习大数据的人来说，清楚的明白大数据的企业架构尤为重要，对于以后的学习有着不可替代的作用，我将分享一下我对大数据架构的一些理解，不足之处，希望谅解。

大数据的技术架构

这是一张大数据架构的图
这里写图片描述

       根据上图，我们可以清楚的了解到大数据的架构分为六层。接下来我将会一一讲解各层作用。
数据源：
       数据源顾名思义也就是数据的来源。我们学习的大数据，数据来源一般分为以下三个方面。
       互联网：对于互联网，我想大家再清楚不过了，因为我们每天都会去访问互联网。我们可以通过一些工具，比如八爪鱼等工具爬取我们所需要的数据。另外我们还可以通过自己写的爬虫，爬取网上我们想要的数据。
       物联网：也就是我们通常所说的传感器，摄像头，冰箱，洗衣机等所产生的数据。
       企业数据：这个没有什么好讲的，就是企业业务中积攒下来的数据。
数据收集/准备：
       数据已经在那里了，我们当然要进行数据的收集与准备了。
       Flume：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。
       Kafka：Kafks是消息队列，一般接物联网数据。
       Sqoop: Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系
型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进
到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库
中。
数据存储：
       得到的数据当然要存储起来了。
       HDFS:HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。
       HBase:H Base是一个开源的非关系型分布式数据库（NoSQL）。
HBase产生背景：
1.HDFS在数据随机访问和实时响应方面的表现并不理想；
2.HDFS是针对大体积文件(128M)来设计的,小文件占用存储和性能,查询慢；
3.HBase具有的有点：
       a)合并小文件存储为大文件
       b)排序提高检索性能（key-value形式存储）
      c)支持MapReduce（HBase不支持join操作，所以支持MapReduce）
资源管理：
       Yarn: YARN是从0.23.0版本开始新引入的资源管理系统,进行资源管理和作业调度。
计算框架：
        计算框架分为三类。
        批处理:MR等
        流式处理：Storm等
       交互式处理：Presto（因为处理速度快，不适合大批量）
数据分析：
        清洗完数据后进行数据分析。
        Mahout：(hadoop自带)生产环境一般不用它
Mllib:(Spark)一般比较常用
数据展示：
       最后阶段当然就是数据展示了，利用一些工具跟软件将数据漂亮完美的展现出来。
       其中有D3，Echart:，Tableau，FineReport（国内市场占用最多的）等等。

大数据的相关热门职业

基于以上大数据的架构，产生可各种各样的工作职位。以下这张图介绍了大数据的相关热门职业。
这里写图片描述
通过这篇博客，你有没有对大数据的架构有了清晰的认识呢？希望我写的这篇文章对你们有所帮助。因为在我刚开始学习大数据的时候，可是没找到这一类型的。所以今天总结以下，希望对各位有所帮助。

阅读全文

1 0