Spark RDD
来源:互联网 发布:网络销售具体做什么 编辑:程序博客网 时间:2024/06/04 00:18
histogram - - 直方图
val a = sc.parallelize(List(1.1,1.2,1.3,2.0,2.1,7.4,7.5,7.6,8.8,9.0),3)
a.histogram(5)
res0:(Array[Double], Array[Long]) = (Array(1.1, 2.68, 4.26, 5.84, 7.42, 9.0),Array(5, 0, 0, 1, 4))
输入的参数buckets可以是一个数字,也可以是一个列表
输出结果为一个元组,元组包含两个列表分别是桶(直方图的边界)和直方图的频数
注意:
1、桶必须是排好序的,并且不包含重复元素,至少有两个元素
2、所有直方图的结果集合区右边是开区间,最后一个区间除外。
计算方式 : 一、参数buckets是一个数字的情况: 根据桶的总数来计算
先用排好序的数组的边界值来得出两个桶之间的间距 (9.0-1.1)/5 = 1.58
所以得到第一个元组(直方图的边界) 1.1-2.68 2.68-4.26 以此类推
然后计算每个桶中的频数 : 数组中的数字在桶中的分布情况, 位于第一个区间(1.1~2.68) 中的数字有 1.1、1.2、1.3、2.0、2.1 一共5个 对应第二个数组中的第一个数字
阅读全文
1 0
- 【spark RDD】RDD编程
- Spark/RDD
- Spark-rdd
- spark RDD
- Spark RDD
- Spark RDD
- spark rdd
- Spark RDD
- Spark rdd
- spark-RDD
- Spark RDD
- spark RDD
- Spark RDD
- spark rdd
- Spark RDD
- Spark RDD
- Spark RDD
- spark-RDD
- MyBatis框架的工作原理
- 笔记————C#数据库内容的查找
- Linux下的crontab定时执行任务命令详解
- JS的解析与执行过程
- Python 爬虫资源包整理
- Spark RDD
- NO.6 列表,元祖,字典
- OpenJ_Bailian
- 作为一个拼多多卖家,来总结一下怎么刷单安全!
- Python 爬虫163Music
- IE浏览器的bug
- C# pdf 缩放纸型-iTextSharp
- HTK 安装、编译以及测试——Ubuntu 16.04
- 高软实验五报告