设置Flume监听文件内容
来源:互联网 发布:qq空间刷留言软件 编辑:程序博客网 时间:2024/06/09 20:10
应用场景
按照Hadoop完全分布式安装Flume博文,测试使用了Flume监听文件夹,当文件夹中添加了文件,Flume设置会立马进行收集文件夹中的添加的文件,那么这是一种应用场景,但是如果我们想收集文件中的内容,该如何办呢?比如,linux目录下有一个文件,我会往这个文件里不断的新增内容,那么怎么才能实时写入到HDFS呢?
操作方案
Hadoop完全分布式安装Flume博文,中监控文件夹,如果linux目录的文件夹下,有文件添加,那么会自动采集到HDFS目录,如果需要监控具体的文件内容,如果该文件中有数据更新,那么需要修改flume-conf.properties文件为如下,其他不变!
# cd /opt/flume1.7.0/conf # vim flume-conf.properties# a.conf: A single-node Flume configuration# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources.r1.type = exec a1.sources.r1.command = tail -F /opt/log/exec.texta1.sources.r1.fileHeader = truea1.sources.r1.deserializer.outputCharset=UTF-8# Describe the sinka1.sinks.k1.type = hdfsa1.sinks.k1.hdfs.path = hdfs://hadoop0:9000/loga1.sinks.k1.hdfs.fileType = DataStreama1.sinks.k1.hdfs.writeFormat=Texta1.sinks.k1.hdfs.maxOpenFiles = 1a1.sinks.k1.hdfs.rollCount = 0a1.sinks.k1.hdfs.rollInterval = 0a1.sinks.k1.hdfs.rollSize = 1000000a1.sinks.k1.hdfs.batchSize = 100000# Use a channel which buffers events in memorya1.channels.c1.type = memorya1.channels.c1.capacity = 1000000a1.channels.c1.transactionCapacity = 100000# Bind the source and sink to the channela1.sources.r1.channels = c1a1.sinks.k1.channel = c1
# cd /opt/flume1.7.0/ # bin/flume-ng agent --conf conf --conf-file conf/flume-conf.properties --name a1 -Dflume.root.logger=INFO,console
阅读全文
1 0
- 设置Flume监听文件内容
- Flume实战采集文件内容存入HDFS
- Flume之监控文件内容变化
- JAVA自动监听文件内容
- Flume监听文件目录sink至hdfs配置
- Flume监听文件目录sink至hdfs配置
- Flume监听文件目录sink至hdfs配置
- 【Flume】flume文件监控的source组件开发,增量传输文件内容,支持断点续传功能
- flume的TaildirSource生成的positionFile文件内容说明
- Flume监听文件夹中的文件变化,并把文件下沉到hdfs
- Flume实战监听网络端口
- Flume之监听目录变化
- Spark Streaming之:Flume监控目录下文件内容变化,然后Spark Streaming实时监听Flume,然后从其上拉取数据,并计算出结果
- 监听EditText内容变化设置Button是否可点击
- 设置EditText的提示文字大小,监听输入框内容变化
- flume简介与监听文件目录并sink至hdfs实战
- Flume之监听目录变化并上传文件到HDFS中
- 模拟使用Flume监听日志变化,并且把增量的日志文件写入到hdfs中
- numpy array TypeError: only integer scalar arrays can be converted to a scalar index
- 系统间通信方式之(Kafka的实际使用场景和使用方案二)(二十四)
- 关于云监控服务
- mrpt2.0中的rbpf_slam跟ros_gmapping建图算法的对比
- glibc内存管理
- 设置Flume监听文件内容
- AIX的inittab分析报告
- http请求获取跳转后URL JAVA
- StarUML for MAC 破解方法
- 最大子序列和
- Android实战系列(一)---版本更新
- 利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍
- EJB深度剖析,写的蛮好的,拿来借鉴一下
- oracle的sql操作