Spark 自带 demo 的学习总结
来源:互联网 发布:内网穿透软件 linux 编辑:程序博客网 时间:2024/05/16 03:35
1.the way that to build the RDD
(1) generate from the folder : offer the folder path which has been upload the hdfs
SparkSession spark = SparkSession .builder() .appName("JavaHdfsLR").master("local")//note:master better no set in here ,this field show //which model you will start the spark cluster .getOrCreate();
JavaRDD<Sting> rdd=spark.read().textFile("filePath").javaRDD();
(2)generate from the List
JavaSparkContext jsc=new JavaSparkContext(spark.sparkContext());JavaRDD<String> lines = jsc.parallelize(new ArrayList());
2.JavaRDD<T>->JavaRDD<R>
一对一类型的转变可以用到这个函数:map(new Function(T,R))
JavaRDD.map(new Function(T,R)),输入T,输出R,在函数里面完成了转化.
另外还有一个函数: flatMap(FlatMapFunction<T,U> f):
两个函数的区别主要是:map(new Function(T,R)) ,进来一个T转化成一个R出去,RDD的size是不变的flatMap(FlatMapFunction<T,U> f),进来一个T转化成 Iterable<R>增加在RDD屁股后,所以RDDsize是增加的
3.JavaRDD<T>->JavaRDD<K,V>
一变多类型的转变可以用到这个函数:
public static <K2,V2> JavaPairRDD<K2,V2> mapToPair(PairFunction<T,K2,V2> f)
其中PairFuntion---->其实是个接口,只有一个call方法,所有的Function接口形式都是类似的scala.**Tuple2<K,V>** call(T t)
throws Exception
意思就是 输入T输出Tuple2<K,V>,其中K,V便是你要得到的新的RDD<K,V>
其中,对比两个函数 mapToPair(PairFunction<T,K2,V2> f)
与flatMapToPair(PairFlatMapFunction<T,K2,V2> f)
PairFuntion,在call函数中,每次输入一个T,就返回一个Tuple2<K,V>对象
PairFlatMapFunction在call函数中 ,每次 输入一个 T,就 返回一个Iterable<Tuple2<K,V>>集合对象,
其实就是 List<Tuple2<K,V>>().Iterable()
4.reduceBykey 和 groupbykey 的比较,
参考:http://blog.csdn.net/zongzhiyuan/article/details/49965021
但是疑惑的是,reducebykey 里面的函数是怎么实现的
- Spark 自带 demo 的学习总结
- Spark 自带demo学习日志
- opencv 2.4.4中自带的demo总结
- (一)学习Android自带的demo项目
- webservice(java自带的demo)
- android 源码自带的Demo BluetoothChat
- 导入SDK中自带的Demo
- 用caffe 跑自带的demo
- 【Android平台】 Alljoyn学习笔记二 编译自带的demo的步骤
- Android中级第一讲--如何学习Android自带的demo项目
- 运行jasperreports中自带的demo的方法
- 运行jasperreports中自带的demo的方法收藏
- lucene4.2自带demo
- xe10 自带DEMO集合
- Spark 运行自带例子
- Spring Security2.0的自带DEMO浅析
- 向eclipse中导入android自带的demo
- qwt自带demo不能运行的原因
- 【Web前端学习笔记】CSS3_常用属性,选择器,盒子模型
- 取一个数的前几位
- Java_基础—多线程程序实现的3种方式Thread和Runnable和Callable
- BZOJ 2407: 探险/BZOJ 4398: 福慧双修 dijkstra 构造
- Codeforces Round #431 (Div. 2) B. Tell Your World
- Spark 自带 demo 的学习总结
- windows访问内网服务器(ngrok用法解析)
- CodeForces
- Elasticsearch在Centos 7上的安装与配置
- C/C++ 数据格式化
- 《伸手系列》第一集-Shiro安全认证框架的从入门到“出门”
- UVA
- 关于JQuery animate()方法
- xutils