Spark Streaming 实时监控一个HDFS的文件夹,当新的文件进来(名字不能重复),将对新文件进行处理。
来源:互联网 发布:音频切换矩阵 编辑:程序博客网 时间:2024/06/07 22:47
import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * Spark Streaming 实时监控一个HDFS的文件夹,当新的文件进来(名字不能重复),将对新文件进行处理。 * Created by csw on 2017/7/4. */object HDFSDemo { def main(args: Array[String]): Unit = { Logger.getLogger("org").setLevel(Level.WARN) val config = new SparkConf().setAppName("Spark shell") val ssc = new StreamingContext(config, Seconds(10)) val lines = ssc.textFileStream("hdfs://master:9000/csw/tmp2/test/") val words: DStream[String] = lines.flatMap(_.split(" ")) val wordCounts: DStream[(String, Int)] = words.map(x => (x, 1)).reduceByKey(_ + _) wordCounts.print() ssc.start() ssc.awaitTermination() }}
//下满是获取Linux本地的文件
val lines = ssc.textFileStream("file:///csw/tmp/test2")
阅读全文
0 0
- Spark Streaming 实时监控一个HDFS的文件夹,当新的文件进来(名字不能重复),将对新文件进行处理。
- 拷贝文件夹到一个新的文件
- Spark之Streaming实时监听Hdfs文件目录
- 实时监控文件夹及文件的变化
- 一个将源目录下所有文件(含子目录)拷贝到一个新文件夹的小程序
- SVN创建新文件不能提交的处理
- 对文件的新认识
- 当一个进程打开的文件描述符达到了上限,这时有新连接到来的sockt 如何处理?
- 封装一个对磁盘,文件夹,文件进行遍历的类
- 一个对磁盘,文件夹,文件进行遍历的类
- Spark来监控hdfs里的文件,并用wordcount计算
- 【code】文件移动到新的文件夹
- SVN上传新的文件及文件夹
- 将文件夹下java文件写入到新的文件夹,并修改扩展名
- spark处理HDFS文件
- spark on hdfs spark处理hdfs上的文件简单的wordcount
- Spark Streaming 监控HDFS目录
- 怎样读取一个文件夹下的头文件名,并整理出一个新的头文件
- 疑难杂症---共享打印机驱动安装失败0x00000bcb错误
- NodeJs抓取页面html()方法乱码
- Centos下YUM安装PHP的两种方式
- Android自定义View初体验,实现圆形TextView的三种方式
- Bokeh 布局图像和工具
- Spark Streaming 实时监控一个HDFS的文件夹,当新的文件进来(名字不能重复),将对新文件进行处理。
- React Native 中组件的生命周期
- PHP加密技术
- 概率论一二章知识点
- git diff
- react-native 环境搭建+bug修复
- sqlserver中判断表或临时表是否存在
- 修改UniEAP Platform RIA 页面combobox控件,增加全选,全选取消下拉框(ie浏览器 js)
- [差分约束]POJ 1201——Intervals