spark【例子】单词计算(wordcount) 词频排序(TopK)
来源:互联网 发布:淘宝靠谱ipad二手店铺 编辑:程序博客网 时间:2024/06/05 01:16
例子描述:
【单词计算wordcount 】
【词频排序topk】
单词计算在代码方便很简单,基本大体就三个步骤
- 拆分字符串
- 以需要进行记数的单位为K,自己拼个数字1为V,组成一个映射或者元组
- 分组(groupByKey)
词频排序
- 将分组后的数据进行排序
代码片段:
/* 单词计算wordcount */val input = Source.fromFile("E:/test.txt").getLines.toArrayval wc = sc.parallelize(input) /* spark单机读取数据 */.flatMap(_.split(" ")) /* 拆分数据,以空格为拆分条件 */.map((_,1)) /* 将拆分的每个数据为K,自己创建个1为V */.reduceByKey(_+_) /* 这里我喜欢叫分组 */.foreach(println) /* 输出 */
/* 词频排序topk */val input = Source.fromFile("E:/test.txt").getLines.toArrayval topk = sc.parallelize(input) /* spark单机读取数据 */.flatMap(_.split(" ")) /* 拆分数据,以空格为拆分条件 */.map((_, 1)) /* 将拆分的每个数据为K,自己创建个1为V */.reduceByKey(_+_) /* 这里我喜欢叫分组 */.sortBy(_._2,false) /* 根据分组后数据第2位数据进行排序 */.take(5) /* 只取前5位 */.foreach(println) /* 输出 */
0 0
- spark【例子】单词计算(wordcount) 词频排序(TopK)
- spark helloworld (wordCount实现并按照词频排序)
- Spark on YARN--WordCount、TopK
- Scala堆的方式进行Spark topK词频查询(根据value进行TreeMap排序)
- Hadoop WordCount改进实现正确识别单词以及词频降序排序
- Spark创建WordCount并统计词频
- Spark Java 单词计数(WordCount)
- Spark实现WordCount单词计数
- Spark Streaming实现实时WordCount,DStream的使用,updateStateByKey(func)实现累计计算单词出现频率
- Python开发Spark应用之Wordcount词频统计
- spark小应用一:wordcount,按词频降序(SCALA)
- Spark RDD 二次分组排序取TopK
- 【spark 词频统计】spark单词进行计数升级版
- spark+java1.8+lamda wordCount 实例,并且实现按单词出现的次数的倒序排序
- spark wordCount单词计数及原理解析
- spark-shell的wordcount的例子存档
- 三种方法实现Spark计算WordCount
- 单词词频统计降序排序(代码贴)
- h264中profile和level的含义
- eclipse向mysql插入中文数据乱码
- mac os x配置adb命令的方法,苹果电脑设置adb命令的方法
- 多线程编程入门(11):Callable和Future
- iOS 图文混排,UITableView实现图文混排 —— HERO博客
- spark【例子】单词计算(wordcount) 词频排序(TopK)
- Python的前世今生
- 高速电路中的复位设计
- OpenlGL游戏编程-简单的机器人制作(一)
- 【LeetCode】 036. Valid Sudoku
- 拯救行动(变种bfs)
- App Widgets的使用
- playframework session 原理
- Linux 下关闭防火墙设置