大飞哥讲<spark学习笔记>

来源:互联网 发布:greenplum 查看数据库 编辑:程序博客网 时间:2024/05/16 23:39

最近朋友问我spark是啥,其实我也不知道,但是既然开源了,想必看看文档,看看示例,自己也能清楚个7788.。


废话不多,先从github 上下载代码   git clone https://github.com/apache/spark.git


下载完毕之后,到spark 执行 build/mvn -DskipTests clean package


build success 之后, ./bin/spark-shell  之后  运行sc.parallelize(1 to 1000).count()  返回1000 即可 




完了之后,就是怎么运行我们自己写的程序呢? 还是那spark中的例子来看,如何wordcount


接下来就得启动spark  


先启动  master    ./sbin/start-master.sh     再启动./sbin/start-slave.sh   下图表明spark已经可以工作了。




接下来 spark-submit来提交这个job


~/spark/code/./bin/spark-submit --master spark://ubuntu:7077 --class org.apache.spark.examples.JavaWordCount /home/ak/spark/code/spark/examples/target/original-spark-examples_2.11-2.3.0-SNAPSHOT.jar /home/ak/spark/resources/1.txt 





运行成功,接下来将自己写一个jar来执行代码中kafkawordcount的例子



原创粉丝点击