Spark API编程动手实战-07-join操作深入实战
来源:互联网 发布:ios10gamecenter数据 编辑:程序博客网 时间:2024/06/05 17:07
我们在hdfs的/data/join创建两个文件:
上传第一个文件名称为1.txt
内容第一列是日期,第二列uid(普通用户id)
上传第二个文件名称为2.txt
内容第一列是日期,第二列uid(普通用户id)
hdfs命令行查询:
web控制台管理查询:
首先在命令行中设置日期格式:
然后声明两个case class:Register、Login
读取第一个文件(1.txt)并进行操作:
take操作:
该操作是首先读取文件的内容,然后以Tab键进行分词,然后以第二列为key,每一行的所有内容为Value构建起的Register作为Value的值;
读取第二个文件(2.txt)并进行操作:
take操作:
下面对文件执行join操作:
取出join操作的结果:
take结果:
或者把执行结果保存到HDFS:
到Web控制台上查看执行结果:
在hdfs查看一下其执行结果:
0 0
- Spark API编程动手实战-07-join操作深入实战
- Spark API编程动手实战-06-对搜狗日志文件深入实战操作
- Spark API编程动手实战-06-对搜狗日志文件深入实战操作
- Spark API编程动手实战-04-以在Spark 1.2版本实现对union、groupByKey、join、reduce、lookup等操作实践
- Spark API编程动手实战-05-spark文件操作和debug
- Spark API编程动手实战-02-以集群模式进行Spark API实战textFile、cache、count
- Spark API编程动手实战-08-基于IDEA使用Spark API开发Spark程序-01
- Spark API编程动手实战-08-基于IDEA使用Spark API开发Spark程序-02
- spark SQL编程动手实战-01
- Spark API编程动手实战-01-以本地模式进行Spark API实战map、filter和collect
- Spark API编程动手实战-03-以在Spark 1.2版本实现对Job输出结果进行排序
- Spark编程实战
- 【Spark亚太研究院系列丛书】Spark实战高手之路-第2章动手实战Scala第2小节:动手实战Scala面向对象编程(1)
- 【Spark亚太研究院系列丛书】Spark实战高手之路-第2章动手实战Scala第2小节:动手实战Scala面向对象编程(2)
- 【Spark亚太研究院系列丛书】Spark实战高手之路-第2章动手实战Scala第2小节:动手实战Scala面向对象编程(3)
- 【Spark亚太研究院系列丛书】Spark实战高手之路-第2章动手实战Scala第3小节:动手实战Scala函数式编程(1)
- 【Spark亚太研究院系列丛书】Spark实战高手之路-第2章动手实战Scala第3小节:动手实战Scala函数式编程(2)
- 【实践】Spark RDD API实战
- 【机器学习中的数学】广义逆高斯分布及其特例
- 杭电1052——田忌赛马
- [redis]redis五种数据类型命令汇总整理
- Boost signal 代码示例
- IIS的安装和配置
- Spark API编程动手实战-07-join操作深入实战
- QT编译qtdesigner
- NYOJ 题目93汉诺塔(三)
- 黑马程序员——Java基础—正则表达式
- 数据库中 connect by。。start with。。
- Linux Kernel: buffers和cached的区别
- linux下gzip的压缩详解
- ACM国际大学生程序设计竞赛介绍
- IOS之json转model