AMPCamp2015之SparkStreaming wordCount
来源:互联网 发布:白苹果恢复数据会掉吗 编辑:程序博客网 时间:2024/04/28 12:22
1 之前已经搭建好hadoop和spark集群
2 练习使用sparkStreaming对文本单词计数
2.1 首先启动集群
这是hadoop集群监控页面:
这是spark监控页面:
2.2 在hdfs上创建文件夹/test/tmp,用于存放待计数的文件
创建后的hdfs系统如下:
2.3 在客户端/app/hadoop/下有一个待计数的文件code,文件内容如下:
3 登陆spark-shell
3.1 启动spark-shell
3.2 导入用到的包:
3.3 创建一个sparkStreaming对象:
3.4 Create a DStream lines and calculate the word count within a batch interval
val lines = ssc.textFileStream("/test/tmp")
val words = lines.flatMap(_.split(" "))
val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
wordCounts.print()
ssc.start()
val words = lines.flatMap(_.split(" "))
val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
wordCounts.print()
ssc.start()
此时,控制台不断打印:
3.5 另外开一个终端,将之前准备的code文件上传到hdfs
3.6 可以看到此时scala控制台打印:
spark WEB UI 监控可以看到:
3.7 退出
0 0
- AMPCamp2015之SparkStreaming wordCount
- AMPCamp2015之SparkSQL
- 01 SparkStreaming's WordCount
- SparkStreaming---WordCount程序
- SparkStreaming---wordCount源码解读
- SparkStreaming wordcount demo
- scala sparkstreaming wordcount
- kafka+sparkstreaming wordcount
- SparkStreaming计算WordCount简单示例
- SparkStreaming快速入门程序----WordCount
- SparkStreaming计算WordCount简单示例
- SparkStreaming实现HDFS的wordCount(java版)
- SparkStreaming之DStream operations
- SparkStreaming之foreachRDD
- SparkStreaming之窗口函数
- SparkStreaming之Output Operations
- SparkStreaming可视化之Wisp
- SparkStreaming之窗口函数
- java常用软件
- 更改linux文件的拥有者及用户组(chown和chgrp)
- MyBatis学习总结(二)——使用MyBatis对表执行CRUD操作
- python - re (正则表达式的学习)
- 不会出错的程序,是这样炼成的
- AMPCamp2015之SparkStreaming wordCount
- 优化中的subgradient方法
- 无法直接启动带有“类库输出类型”的项目
- IOS之C语言读取文本最长字符串
- 数据库?:数据库安全
- Android studio删除module后Gradle failed: already disposed module 的问题解决
- klee-uclibc configure错误
- win32 时钟
- 最近项目中的一些常用工具类写一下