Spark算子:RDD行动Action操作(4)–countByKey、foreach
来源:互联网 发布:蒸汽巴士推荐的淘宝店 编辑:程序博客网 时间:2024/06/05 11:36
转载:http://lxw1234.com/archives/2015/07/399.htm
遇到一个在spark shell上执行foreach什么都不显示的问题。
答案在下方:
countByKey
def countByKey(): Map[K, Long]
countByKey用于统计RDD[K,V]中每个K的数量。
foreach
def foreach(f: (T) ⇒ Unit): Unit
foreach用于遍历RDD,将函数f应用于每一个元素。
但要注意,如果对RDD执行foreach,只会在Executor端有效,而并不是Driver端。
比如:rdd.foreach(println),只会在Executor的stdout中打印出来,Driver端是看不到的。
我在Spark1.4中是这样,不知道是否真如此。
这时候,使用accumulator共享变量与foreach结合,倒是个不错的选择。
foreachPartition
def foreachPartition(f: (Iterator[T]) ⇒ Unit): Unit
foreachPartition和foreach类似,只不过是对每一个分区使用f。
sortBy
def sortBy[K](f: (T) ⇒ K, ascending: Boolean = true, numPartitions: Int = this.partitions.length)(implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T]
sortBy根据给定的排序k函数将RDD中的元素进行排序。
更多关于Spark算子的介绍,可参考 Spark算子系列文章 :
http://lxw1234.com/archives/2015/07/363.htm
- Spark算子:RDD行动Action操作(4)–countByKey、foreach
- Spark算子:RDD行动Action操作(4)–countByKey、foreach、foreachPartition、sortBy
- Spark算子:RDD行动Action操作(4)–countByKey、foreach、foreachPartition、sortBy
- Spark算子:RDD行动Action操作(4)–countByKey、foreach、foreachPartition、sortBy
- Spark算子:RDD行动Action操作(4)–countByKey、foreach、foreachPartition、sortBy
- RDD行动Action操作(4)–countByKey、foreach、foreachPartition、sortBy
- 3.4 Spark RDD Action操作4-countByKey、foreach、foreachPartition、sortBy
- Spark算子:RDD行动Action操作(7)–saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset
- Spark算子:RDD行动Action操作(6)–saveAsHadoopFile、saveAsHadoopDataset
- Spark算子:RDD行动Action操作(7)–saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset
- Spark算子:RDD行动Action操作(7)–saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset
- Spark算子:RDD行动Action操作(6)–saveAsHadoopFile、saveAsHadoopDataset
- Spark算子:RDD行动Action操作(6)–saveAsHadoopFile、saveAsHadoopDataset
- Spark算子:RDD行动Action操作(7)–saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset
- spark RDD算子(十)之PairRDD的Action操作countByKey, collectAsMap
- Spark算子:RDD行动Action操作(2)–take、top、takeOrdered
- Spark算子:RDD行动Action操作(3)–aggregate、fold、lookup
- Spark算子:RDD行动Action操作(5)–saveAsTextFile、saveAsSequenceFile、saveAsObjectFile
- 网页布局练习一
- python自定义异常
- 1050:[HAOI2006]旅行comf
- HDU-3652 B-number(数位DP)
- 看看你的移动网站是否合格
- Spark算子:RDD行动Action操作(4)–countByKey、foreach
- Matlab常用函数,学习笔记
- 玩转linux主机--Scrapy安装(windows 7,centos7)
- 微信开发-获取用户关注公众号的状态(是否关注公众号)
- MyElipse导入maven项目
- Android常用炫酷风格控件包含项目地址汇总
- 基于对话框的MFC应用程序,在“工程名.cpp”文件里如何调用“工程名+Dlg.cpp”文件里“工程名+Dlg”类的public成员函数?
- hive 时间相减
- Hadoop-2.7.3_MapReduce开发环境搭建