spark学习笔记:初识spark

来源:互联网 发布:马士兵java 编辑:程序博客网 时间:2024/05/16 10:05

下载解压,配置环境变量。
使用命令进入spark的shell中:

spark-shell local[2]

local[N]表示从本地以N个线程启动。

更改启动显示信息

修改./conf/log4j.properties文件:

log4j.rootCategory=WARN, console

简单示例

val file=sc.textFile("/home/daya/test.txt")

此处不能用主目录符“~”

file.count

count():Return the number of elements in the dataset

file.take(3)

take(n):Return an array with the first n elements of the dataset

file.filter(l=>l.contains("ok")).count

filter(func):Return a new dataset formed by selecting those elements of the source on which func returns true

再看个复杂点的,刚学spark就多写几句

file.map(l=>l.split(" ").size).reduce((a,b)=>Math.max(a,b))

map(func):Return a new distributed dataset formed by passing each element of the source through a function func
reduce(func):Aggregate the elements of the dataset using a function func (which takes two arguments and returns one). The function should be commutative and associative so that it can be computed correctly in parallel
size方法为得到条目中元素的个数
文件内容如下:

hadoop yarn mapreduce hadoop hellohow are youyeahok ok i'm fine

此句先将file文件内容的每行按空格拆开,转成单词数,再用map方法得到4个数据集,每个数据集内容为原文件每行的单词数。reducer方法对4个数据集进行筛选,返回最大的数据集。


spark语句是laziness的,在没必要进行计算前语句都不会执行,只会生成计划,比如对一个不存在的文件进行如下操作:

var file=sc.textFile("/home/daya/123.text")

此时不会报错,但对其进行操作时就会报错:

file.foreach(println)

spark提供了web管理页面,URL为:master:4040

可以看到计算作业:

原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 孕妇嘴干鼻子干怎么办 狗狗打了针皮肤变硬怎么办 狗狗得了狗瘟怎么办 金毛得了犬瘟怎么办 泰迪身上起皮怎么办 狗狗鼻子干了怎么办 泰迪生病鼻子干怎么办 痔疮手术后肛门狭窄怎么办 乳腺导管扩张奶头疼怎么办 3月的宝宝要扩肛才拉便便怎么办 怀孕期间肛门长痔疮怎么办 射精后检查尿液发现蛋白尿怎么办 铁距孔被小孩拿体温计塞了怎么办 肛门长了个息肉怎么办 不小心吃了虫卵怎么办 孕妇做四维宝宝不配合怎么办 孕妇四维小孩不配合怎么办 孕妇吃了甜酒酿怎么办 屁股疼的不能动怎么办 小孩打针后手臂疼痛怎么办 屁股打针的地方疼怎么办 眼底坏了怎么办怎么治 大疆无人机飞丢了怎么办 两岁半宝宝发热灌肠后便秘怎么办 发烧灌肠后一直拉稀怎么办 孩子便秘用开塞露引起肚子疼怎么办 老人大便干燥拉不出来怎么办 海底捞排队过号怎么办 脱毛后吃了海鲜怎么办 脂肪填充变丑了怎么办 全切双眼皮伤口长包怎么办 鼻综合修复眼中心修太宽怎么办 fgo的id忘了怎么办 电脑下载模拟器显示内存不够怎么办 安逍遥模拟器运行一段时间卡怎么办 pos机微信支付签到失败怎么办 逆水寒fps过低怎么办 电脑卡怎么办怎么清理磁盘 苹果手机设置找不到了怎么办 苹果手机自动拨出电话怎么办 机械键盘灯坏了怎么办