倒排索引(scala版)
来源:互联网 发布:阿里云考试认证资料 编辑:程序博客网 时间:2024/05/27 00:29
元数据:
结果数据:
贴出自己的代码:
object DaoPai2{ def main(args: Array[String]): Unit = { //在spark本地单节点运行配置 val conf =new SparkConf() conf.setAppName("DaoPai").setMaster("local") val sc = new SparkContext(conf) //wholeTextFile返回值是一个元组,第一个值是文件名,一个二个值是文件的内容 val file = sc.wholeTextFiles("D:\\decstop\\sparkTest\\daopai") //将文章分割成(filename,(wordsArray)) val fileTu = file.map(file =>(file._1,file._2.split(System.getProperty("line.separator")).flatMap(line=>line.split(" ")))) //然后去重,然后转变成(word,fileName) val wordAndFileName = fileTu.flatMap(a=>a._2.distinct.map(word=>(word,a._1)) ) //合并相同的word val result = wordAndFileName.reduceByKey(_+" "+_) //保存结果 result.saveAsTextFile("D:\\decstop\\sparkTest\\result\\res4") }}
0 0
- 倒排索引(scala版)
- 倒排索引的简化版
- hadoop学习笔记(倒排索引)
- Inverted Index(倒排索引)
- 倒排索引原理
- 倒排索引
- 倒排索引
- 倒排索引
- 索引 倒排
- 倒排索引
- 倒排索引
- hadoop 倒排索引
- 倒排索引技术
- 什么是倒排索引?
- 倒排索引求子串
- 倒排索引
- 倒排索引
- 倒排索引
- leetcode 213 c++. House Robber II
- Dubbo与Zookeeper、SpringMVC整合和使用(负载均衡、容错)
- Mysql 密码过期
- WEB-INF目录与META-INF目录详解
- Android菜鸟练习第十六课 RefreshListView的使用配合万能适配器(本篇文章自用)
- 倒排索引(scala版)
- Shell中的输入和输出
- Java访问修饰符(访问控制符)
- Hibernate延迟加载、三种状态、脏检查 缓存
- ILJMALL project过程中遇到Fragment嵌套问题:IllegalArgumentException: Binary XML file line #23: Duplicate id
- STM32时钟系统
- js-scrollTop和scrollLeft封装
- Vue 使用nprogress
- C++ 顺序容器访问元素