Spark累加器使用
来源:互联网 发布:网络监控布线 编辑:程序博客网 时间:2024/05/17 04:30
Spark累加器使用
转贴请声明原文:http://blog.csdn.net/duck_genuine/article/details/41550019
使用spark累加器,解决视频平均播放数计算,以及视频播放数平方和平均值
val totalTimes=sc.accumulator(0l)val totalVids=sc.accumulator(0)val totalPow2Times=sc.accumulator(0d)val timesFile=sc.textFile("/user/zhenyuan.yu/DumpIdTimesJob_tmp_out")timesFile.foreach(f=>{ val vid_times=f.split("\t") var times=vid_times(1).toInt if(times>10000000)times=10000000 if(times>500){ val times_d=times.toDouble totalTimes+=times totalPow2Times+=Math.pow(times_d,2) totalVids+=1 } })val avgTimes=totalTimes.value/totalVids.valueval avgPow2Times=totalPow2Times.value/totalVids.valueprintln("totalTimes:"+totalTimes+",totalVids:"+totalVids+",totalPow2Times:"+totalPow2Times)println("avgTimes:"+avgTimes+",avgPow2Times:"+avgPow2Times)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
计算视频播放数每个区间占用比例
val totalVids=sc.accumulator(0)val timesFile=sc.textFile("/user/zhenyuan.yu/DumpIdTimesJob_tmp_out")val keysList=List(100, 500, 1000, 2000, 5000, 10000, 20000, 40000, 80000, 100000, 200000, 300000, 500000, 1000000, 2000000, 5000000, 10000000)val timesRDD=timesFile.map(f=>{ val vid_times=f.split("\t") var times=vid_times(1).toInt times }).filter(_>50).map(times=>{ totalVids+=1 var key=0 var end=false var i=0 var size=keysList.size while(i<size && !end){ key=keysList(i) if(times<key){ end=true } i+=1 } (key,1)}).reduceByKey(_+_)val rdd=timesRDD.collect()println("totalVid:"+totalVids)for(i<-0 to rdd.size-1){ val times_times=rdd(i) val percent=times_times._2.toFloat/totalVids.value println("times:<"+times_times._1+",vid_num:"+times_times._2+",percent:"+percent)}
1 1
- Spark累加器使用
- Spark累加器
- Spark的广播和累加器的使用
- Spark 2.x 自定义累加器AccumulatorV2的使用
- Spark广播和累加器
- spark自定义累加器
- spark广播,累加器
- Spark自定义累加器
- Spark自定义累加器的实现
- spark广播变量和累加器
- Learning Spark笔记12-累加器
- spark广播变量和累加器
- 累加器
- Spark累加器(Accumulator)陷阱及解决办法
- Spark源码解读(8)——累加器
- Spark累加器(Accumulator)陷阱及解决办法
- spark中的广播变量和累加器
- Spark累加器(Accumulator)陷阱及解决办法
- mysql5.5多实例部署
- JNI方法签名规则
- NYOJ122 盗梦空间
- netty5.0之 ChannelPipeline和ChannelHandler
- 应用框架(AF)及OSAL处理来自AF的数据包流程
- Spark累加器使用
- 数据结构 - 栈的应用:表达式求值(C)
- UVA 11205
- Java类更改常量后编译不生效
- 关于在web情况下访问C#客户端,导致C#客户端无法访问网络映射盘问题
- Java数据类型与JNI数据类型转换
- mysql加载驱动
- servlet过滤器
- Binary Tree Preorder Traversal