scala实现单词统计（hdfs上）

来源：互联网发布：淘宝中差评扣分编辑：程序博客网时间：2024/06/14 17:10

package com.scala.my

import org.apache.spark.streaming.StreamingContext
import org.apache.spark.SparkConf
import org.apache.spark.streaming.Durations
/**
* scala版本的hdfs上wordCount
*/
object HdfsWordCount {
def main(args: Array[String]): Unit = {
//获取streamingContex，并设置切分rdd时间为6s
val sc=new StreamingContext(new SparkConf().setAppName("hdfsCount").setMaster("local[2]"),Durations.seconds(5))
//读取hdfs上的数据
val lines =sc.textFileStream("hdfs://master:8020/wordcount_dir")
//压扁
val paris=lines.flatMap(x=>x.split(","))
//map
val map=paris.map { (_,1) }
//reduceBykey
val words=map.reduceByKey(_+_)
//打印前10个
words.print()
//开启
sc.start()
//等待
sc.awaitTermination()
//关闭资源
sc.stop()
}
}

0 0

scala实现单词统计（hdfs上）
Scala 统计文件单词数
使用Java实现在单机上统计单词的数目
在链表上实现单词统计
使用Hadoop实现单词统计
统计单词（状态机）
单词统计（未完成）
Scala 统计一个文件夹下面所有单词出现的次数
spark on yarn运行scala单词统计程序出错
scala 两种方法实现单词计数
使用Scala实现文件单词计数
KWIC系统之事件架构实现（输出模块，单词统计类，单词存储类）
spark parquet 从hdfs 上读和写 scala 版本
scala读取HDFS上的文件，每次读取一行
统计单词频率（HashMap）
Tried树（统计单词）
统计单词个数（26）
spark_入门（单词统计）
表格的处理
做网站用UTF-8还是GB2312
---JDK中工具类的使用---
ISCSI 用法及简单配置
Caffe on Ubuntu 15.04
scala实现单词统计（hdfs上）
判断一棵二叉树是不是另一棵二叉树的子树
checkbox选中之后才能点击按钮
ubuntu定时备份网站及数据库到备份服务器
leetcode 24. Swap Nodes in Pairs
iOS View的Frame和bounds之区别,setbounds使用
级联操作
enjoy java8 section1
网络编程的基本概念