关于spark的一些资料总结

来源:互联网 发布:淘宝开店认证需要等吗? 编辑:程序博客网 时间:2024/06/05 15:26

免责声明:本文仅代表个人观点,如有错误,请读者自己鉴别;如果本文不小心含有别人的原创内容,请联系我删除;本人心血制作,若转载请注明出处

1、官方文档,养成看官方文档的习惯

http://spark.apache.org/docs/1.4.1/sql-programming-guide.html

这里一定要好好看,里面的小例程最好都实现一下


2、51学院(很多人做spark都是从王家林这里入手的)

http://book.51cto.com/art/201408/448416.htm


3、GitHub(基本上很多关于spark的资料、源码都可以在这里下载,如Lenet)

https://github.com/patrickmeiring/LeNet


4、spark参数配置,如使用多少个核,每个核多大内存等等

http://www.tuicool.com/articles/zIvayyf


5、spark的GraphX操作(基本上是官方文档上的一个应用)

http://www.dataguru.cn/thread-478144-1-1.html


6、整理的对spark的SQL理解

http://www.tuicool.com/articles/VZRBV3


7、DL4J库的安装与应用

http://deeplearning4j.org/zh-gettingstarted.html


8、spark的机器学习库的介绍

http://www.colabug.com/thread-1144693-1-1.html


9、一些函数讲解

      1)、spark的 reduceByKey 和 groupByKey的比较

      http://www.iteblog.com/archives/1357

   

      2)、spark的 sortBy 和 sortByKey的详解

      http://www.iteblog.com/archives/1240


        3)、spark的 Vectors讲解

     http://blog.sina.com.cn/s/blog_49cd89710102v3be.html


总结:想要做好spark一定先要把架构看好,spark的并行式架构的具体组成,在其次就是那些并行架构是怎么用spark实现的,spark使用scala开发的,所以scala应尽量学好,java可以跟scala无缝嫁接,所以java也应该学好

spark的核心知识:架构、图、数据库、pipeline、流、及机器学习库和深度学习库等等


1 0