Spark Streaming 实时监控一个HDFS的文件夹，当新的文件进来（名字不能重复），将对新文件进行处理。

来源：互联网发布：音频切换矩阵编辑：程序博客网时间：2024/06/07 22:47

import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}/**  * Spark Streaming 实时监控一个HDFS的文件夹，当新的文件进来（名字不能重复），将对新文件进行处理。  * Created by csw on 2017/7/4.  */object HDFSDemo {  def main(args: Array[String]): Unit = {    Logger.getLogger("org").setLevel(Level.WARN)    val config = new SparkConf().setAppName("Spark shell")    val ssc = new StreamingContext(config, Seconds(10))    val lines = ssc.textFileStream("hdfs://master:9000/csw/tmp2/test/")    val words: DStream[String] = lines.flatMap(_.split(" "))    val wordCounts: DStream[(String, Int)] = words.map(x => (x, 1)).reduceByKey(_ + _)    wordCounts.print()    ssc.start()    ssc.awaitTermination()  }}

//下满是获取Linux本地的文件

val lines = ssc.textFileStream("file:///csw/tmp/test2")

阅读全文

0 0