[Spark base]-01
来源:互联网 发布:ipad视频怎么导入mac 编辑:程序博客网 时间:2024/05/16 09:09
首先学习基本的linux指令是必须的
下面给出ubuntu环境下搭载Spark网址:
http://blog.csdn.net/u010171031/article/details/51849562
其中特别是要找到spark-1.6.1-bin-hadoop2.6/usr 的绝对位置,,加上source /etc/profile,然后可以执行任何的python_shell(scala),pyspark(python),sparkR(R)
Spark首要概念是RDD(分布式数据集,可创造,可转换,不可迭代):
1)RDD
Actions:返回一个值
transformations:返回一个指向新RDDs的指针
#create RDDtextFile=sc.textFile("README.md")#simple operations#actionstextFile.count()
textFile.first()#transformationlinesWithSpark=textFile.filter(lambda line: "Spark" in line)linesWithSpark.count()
#使用数据流模式(mapreduce)wordcounts=textFile.flatMap(lambda line:line.split()).map(lambda word :(word,1)).reduceByKey(lambda a,b :a+b)wordcounts.collect() #收集每个字的统计次数0 0
- [Spark base]-01
- spark com.google.common.base.Stopwatch错误解决办法
- base
- Base
- BASE
- base-``
- base
- Base
- base
- base
- Base
- C++.Homework.C++Base.01
- spark筑基篇-01-Eclipse开发Spark HelloWorld
- Spark--01eclipse java spark环境搭建
- spark筑基篇-01-Eclipse开发Spark HelloWorld
- spark-01-简介
- 01 Spark 初始
- Spark SQL(01)--Overview
- YAML预研文档
- iOS const static extern 汇总
- CSS中position的4种定位详解
- 抽象类可以继承实体类吗
- 001 使用maven建立Dynamic Web Module 3.1 项目
- [Spark base]-01
- nodejs发送邮件
- 为什么CSDN中个人主页和我的博客两大版块分开这么明显
- Arduino学习笔记(四)Matlab串口控制Arduino转动电机
- java.io.IOException: No FileSystem for scheme: hdfs异常解决
- https认证详解
- Leetcode题解
- 任务,行动,目标、绩效管理,计划
- 计算机网络5层架构