spark-shell的wordcount的例子存档
来源:互联网 发布:手机淘宝千牛怎么装修 编辑:程序博客网 时间:2024/06/04 19:07
启动spark-shell后 完成的第一示例:
完成Spark安装并启动后,就可以用Spark API执行数据分析查询了。
首先让我们用Spark API运行流行的Word Count示例。如果还没有运行Spark Scala Shell,首先打开一个Scala Shell窗口。这个示例的相关命令如下所示:
val txtFile = "README.md"
val txtData = sc.textFile(txtFile)
txtData.cache()
我们可以调用cache函数将上一步生成的RDD对象保存到缓存中,在此之后Spark就不需要在每次数据查询时都重新计算。需要注意的是,cache()是一个延迟操作。在我们调用cache时,Spark并不会马上将数据存储到内存中。只有当在某个RDD上调用一个行动时,才会真正执行这个操作。
现在,我们可以调用count函数,看一下在文本文件中有多少行数据。
txtData.count()
然后,我们可以执行如下命令进行字数统计。在文本文件中统计数据会显示在每个单词的后面。
val wcData = txtData.flatMap(l => l.split(" ")).map(word => (word, 1)).reduceByKey(_ + _)
wcData.collect().foreach(println)
参考链接地址:
http://www.infoq.com/cn/articles/apache-spark-introduction
完成Spark安装并启动后,就可以用Spark API执行数据分析查询了。
首先让我们用Spark API运行流行的Word Count示例。如果还没有运行Spark Scala Shell,首先打开一个Scala Shell窗口。这个示例的相关命令如下所示:
val txtFile = "README.md"
val txtData = sc.textFile(txtFile)
txtData.cache()
我们可以调用cache函数将上一步生成的RDD对象保存到缓存中,在此之后Spark就不需要在每次数据查询时都重新计算。需要注意的是,cache()是一个延迟操作。在我们调用cache时,Spark并不会马上将数据存储到内存中。只有当在某个RDD上调用一个行动时,才会真正执行这个操作。
现在,我们可以调用count函数,看一下在文本文件中有多少行数据。
txtData.count()
然后,我们可以执行如下命令进行字数统计。在文本文件中统计数据会显示在每个单词的后面。
val wcData = txtData.flatMap(l => l.split(" ")).map(word => (word, 1)).reduceByKey(_ + _)
wcData.collect().foreach(println)
参考链接地址:
http://www.infoq.com/cn/articles/apache-spark-introduction
0 0
- spark-shell的wordcount的例子存档
- 007-spark的wordCount
- Spark入门的WordCount
- Spark的WordCount详解
- hadoop的WordCount例子
- 启动Spark Shell,在Spark Shell中编写WordCount程序,在IDEA中编写WordCount的Maven程序,spark-submit使用spark的jar来做单词统计
- Spark 的JAVA版 wordCount
- 分析hadoop的WordCount例子
- 用SBT编译Spark的WordCount程序
- sbt 编译spark 的wordcount 程序
- Spark pipe + PHP 的 wordcount 实现
- 以wordcount理解spark的执行过程
- 用SBT编译Spark的WordCount程序
- java调用spark的借口运行WordCount
- java8实现spark streaming的wordcount
- Eclipse创建Spark的WordCount工程
- 在windows本地编写spark的wordcount
- spark的wordcount产生多少个RDD
- dp最长公共子序列
- CSS定位absolute和relative
- Fedora21修改jdk为1.7版并安装Eclipse
- POJ NO.2376 Cleaning Shifts(贪心,区间重叠)
- 《EffcativeSTL》
- spark-shell的wordcount的例子存档
- EditText设置可以编辑和不可编辑状态
- TCP的流量控制与拥塞控制
- 越老越结不了婚的星座,真的孤独终老?
- 怎么设置启动界面ios 8设置状态栏字体颜色
- Autolayout自动布局1
- 炮兵阵地(经典状压dp)(poj 1185) + 状压dp小技巧详解
- codeforces 607B Zuma 区间dp
- XOR and Favorite Number