分层抽样
来源:互联网 发布:mac不能玩游戏吗 编辑:程序博客网 时间:2024/05/21 05:19
1.sampleByKey
import org.apache.spark.{SparkConf, SparkContext}object testVector { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local") .setAppName("testVector"); val sc = new SparkContext(conf); var data = sc.textFile("kimi.txt") .map(row => { if(row.length == 3) //判定字符数 (row,1) //建立对应Map else (row,2) }) val fractions: Map[String,Double] = Map("aa" -> 2);//设定抽样格式 val approxSample = data.sampleByKey(withReplacement = false,fractions,0);//计算抽样样本 approxSample.foreach(println); }}程序结果:(aa,2)
withReplacement:每次抽样是否放回
fractions:定义分类条件和采样几率。
seed:随机数种子
0 0
- 分层抽样
- 分层抽样(Stratified sampling)
- Spark之分层抽样
- Python中如何实现分层抽样
- Spark 分层抽样与求最大值最小值
- 分层抽样Selecting a Stratified Sample with PROC SURVEYSELECT
- [置顶]R语言 分层抽样---分层随机抽样(SRS)(二 )
- R语言 分层抽样 strata (三),每层抽取80%
- 随机抽样(分层抽样)和朴素贝叶斯分类
- Spark中组件Mllib的学习19之分层抽样
- R语言 分层抽样---分层随机抽样(SRS) strata的使用(一)
- R语言实现分层抽样(Stratified Sampling)以iris数据集为例
- Excel在统计分析中的应用—第六章—抽样与抽样分布-Part3(分层抽样)
- 包装对象
- Hibernate学习-09:核心API:Configuration、SessionFactory、Session、Transaction、Query、Criteria
- 题目1171:C翻转
- MySQL utf8mb4 字符集,用于存储emoji表情
- 详解CorelDRAW中如何排列对象
- 分层抽样
- giit 通过rebase命令来revert patch
- XMind如何制作产品流程图?
- 针对SendBroadcastPermission: action:*, mPermissionType:* 问题分析及解决方案
- 【IMWeb训练营作业】实战vue练习之todoList
- .NET 分布式 搜索 elasticsearch.net NEST
- 什么叫做JSON?
- BZOJ 4129 Haruna’s Breakfast
- linux-一篇文章完成lnmp环境的编译安装