D12 Hive基础及Flume
来源:互联网 发布:富士plc中文编程软件 编辑:程序博客网 时间:2024/05/18 21:06
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。可以将sql语句转换为MapReduce任务进行运行。
Ø 直接使用hadoop所面临的问题
人员学习成本太高
项目周期要求太短
MapReduce实现复杂查询逻辑开发难度太大
Ø 为什么要使用Hive
操作接口采用类SQL语法,提供快速开发的能力。
避免了去写MapReduce,减少开发人员的学习成本。
扩展功能很方便。
Hive的特点
Ø 可扩展 Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。
Ø 延展性 Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
Ø 容错 良好的容错性,节点出现问题SQL仍可完成执行。
创建a表
create table a(id int,name string)
row format delimited fields terminated by ',';
创建b表
create table a(id int,name string)
row format delimited fields terminated by ',';
load data local inpath '/home/hadoop/a.txt' into table t_a;
right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录
inner join(等值连接) 只返回两个表中联结字段相等的行
public String evaluate(String jsonLine) {
ObjectMapper objectMapper = new ObjectMapper();
try {
MovieRateBean bean = objectMapper.readValue(jsonLine, MovieRateBean.class);
return bean.toString();
} catch (Exception e) {
}
return "";
}
1、 每一个agent相当于一个数据传递员,内部有三个组件:
a) Source:采集源,用于跟数据源对接,以获取数据
b) Sink:下沉地,采集数据的传送目的,用于往下一级agent传递数据或者往最终存储系统传递数据
c) Channel:angent内部的数据传输通道,用于从source将数据传递到sink
单个agent使用 多个agent级联
bin/flume-ng agent -c conf -f conf/netcat-logger.conf -n a1 -Dflume.root.logger=INFO,console
-c conf 指定flume自身的配置文件所在目录
-f conf/netcat-logger.con 指定我们所描述的采集方案
-n a1 指定我们这个agent的名字
- D12 Hive基础及Flume
- d12
- D12
- D12
- Hive 基础及安装
- 【hive】Hive基础及效率优化
- flume+hive处理日志
- flume基础
- D12函数
- MAC OS 伪分布式Apache Hadoop及HBase Hive Zookeeper Flume Mahout Spark2 配置
- flume使用hive stream写入到hive
- Hive采集数据框架flume
- Flume 将数据导入Hive
- apache flume基础应用
- Flume基础概述
- 简单的项目使用flume,hive,sqoop,flume
- flume使用之flume+hive 实现日志离线收集、分析
- flume安装及配置
- python技巧
- SpringData JPA 实现动态条件查询
- MySQL:浅析 Impossible WHERE noticed after reading const tables
- 位运算基础知识
- Concurrent Set的创建
- D12 Hive基础及Flume
- 剑指offer(6)—旋转数组的最小数字
- Oracle子查询与伪列
- 晒往期云栖大会的照片或感想,赢2017杭州云栖大会门票
- Java的可变参数列表
- 逾期多久会上征信?
- 通过telnet外网远程访问维护交换机
- linux 操作
- JavaScript的10个重点及难点