对spark中RDD的理解

来源:互联网 发布:数组java定义 编辑:程序博客网 时间:2024/06/04 10:44

update at 2016.1.25

RDD作者的论文链接

https://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf


论文的理解:
spark要解决的问题:
1、有些数据要多次读写,磁盘速度很慢
2、没有交互的界面,不能看到中间结果
适用的应用:
1、机器学习:多个迭代次运算,逼近(优化问题)。==》是不是三维重建中优化也可以用到这个
2、计算结果还要用的:pagerank
解决办法==》数据抽象成RDD+memory-cache

其中提到finer- grained shared memory abstractions ,那么coarse又是什么呢
没看懂RDD是怎么实现的

继续学习






0 0
原创粉丝点击