hadoop基本教程之开源数据仓库工具hive

来源:互联网 发布:notepad 和python 编辑:程序博客网 时间:2024/06/08 02:53

        Hadoop是大数据分析的主要工具,也是学习大数据技术的核心知识,大数据课程培养的是德智体美全面发展,具有良好的职业道德和创新精神,且掌握计算机技术、hadoop 、spark、storm开发、hive 数据库、Linux 操作系统等知识,具备分布式存储、分布式计算框架等技术,熟悉大数据处理和分析技术,面向大数据平台建设与服务企业的技术人才。

       今天小编分享的技术知识是关于Hadoop中的hive数据仓库,希望对大家的入门和基础学习有所帮助。


1. hive介绍

        Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口

2.hive的优缺点

优点:

       Hive 使用类SQL查询语法, 很大限度的实现了和SQL标准的兼容,大大降低了传统数据分析人员处理大数据的难度。使用JDBC 接口/ODBC接口,开发人员更易开发应用;以MR 作为计算引擎、HDFS 作为存储系统,为超大数据集设计的计算/ 扩展能力;统一的元数据管理(Derby、MySql等),并可与Pig 、spark等共享;

缺点:

       Hive 的HQL 表达的能力有限,比如不支持UPDATE、非等值连接、DELETE、INSERT单条等;由于Hive自动生成MapReduce 作业, HQL 调优困难;粒度较粗,可控性差。

3. 与关系数据库的区别

       hive和关系数据库存储文件的系统不同,hive使用的是hadoop的HDFS(hadoop的分布式文件系统),关系数据库则是服务器本地的文件系统;hive使用mapreduce做运算,与传统数据库相比运算数据规模要大得多;关系数据库都是为实时查询的业务进行设计的,而hive则是为海量数据做数据挖掘设计的,实时性很差;实时性的区别导致hive的应用场景和关系数据库有很大的不同。Hive很容易扩展自己的存储能力和计算能力,这个是继承hadoop的,而关系数据库在这个方面要比数据库差很多。

       大数据产业已进入发展的“快车道”,急需大量优秀的大数据人才作为后盾。能够在大数据行业崛起的初期进入到这个行业当中来,才有机会成为时代的弄潮儿。学习大数据势不可挡,快快行动吧!Hadoop的基本教程

阅读全文
'); })();
0 0
原创粉丝点击
热门IT博客
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 吃什么下奶快而且奶多 下奶中药配方 下奶食物排行榜 下奶的汤有哪些 产后几天下奶 下奶食物有哪些 按摩乳房下奶 怎么样才能下奶快 木瓜怎样下奶 吃什么下奶比较快 下奶回奶食物 催乳食谱 产妇催奶食谱 催奶的食物 孕妇催奶 催乳汤 孕妇吃什么催奶 产奶的食物 产妇的饮食菜谱 催乳食谱大全 催乳食物 产后催奶食谱 催奶食谱 产后催奶 剖腹产下奶食谱 孕妇产后食谱 如何催奶 吃什么催奶 催奶汤 奶不够宝宝吃怎么办 怎样催奶 发奶的食物和水果 催奶中药配方 催奶 产妇吃什么奶水多 奶不够吃的表现 催奶中药 发奶的食物有哪些 产后吃什么奶水多 催奶食物 催乳价格