从零开始学习Spark--第3章 spark的example
来源:互联网 发布:淘宝上哪家韩妆是正品 编辑:程序博客网 时间:2024/06/16 02:03
1. 计算Pi值
1.1 命令行:
#spark安装在/home/brian/setup/spark-new/spark-0.8.0目录
cd /home/brian/setup/spark-new/spark-0.8.0
#在本地运行计算Pi值的Spark程序,4个工作线程
./run-example org.apache.spark.examples.SparkPi local[4]
1.2 Web UI
在Log里,可以看到 ui.SparkUI: Started Spark Web UI at http://brian-i3.local:4040
在浏览器地址栏输入http://brian-i3.local:4040,回车,可以看到作业执行情况。
1.3 SparkPi.scal的源代码分析
1.3.1 代码在examples/src/main/scala/org/apache/spark/examples目录下
1.3.2 代码内容如下:
package org.apache.spark.examples
import scala.math.random
import org.apache.spark._
import SparkContext._
/** Computes an approximation to pi */
object SparkPi {
def main(args: Array[String]) {
if (args.length == 0) {
System.err.println("Usage: SparkPi <master> [<slices>]")
System.exit(1)
}
val spark = new SparkContext(args(0), "SparkPi",
System.getenv("SPARK_HOME"), Seq(System.getenv("SPARK_EXAMPLES_JAR")))
val slices = if (args.length > 1) args(1).toInt else 2
val n = 100000 * slices
val count = spark.parallelize(1 to n, slices).map { i =>
val x = random * 2 - 1
val y = random * 2 - 1
if (x*x + y*y < 1) 1 else 0
}.reduce(_ + _)
println("Pi is roughly " + 4.0 * count / n)
System.exit(0)
}
}
核心的语句是这条:
val count = spark.parallelize(1 to n, slices).map { i =>
val x = random * 2 - 1
val y = random * 2 - 1
if (x*x + y*y < 1) 1 else 0
}.reduce(_ + _)
MapReduce过程一句话搞定,跟Hadoop比起来真是差别太大了,简单到令人泪下,如果用Hadoop的话,上百行代码肯定是有的。
2. LocalPi.scala
在本地计算Pi值,实际上这是一个Scala程序,跟Spark没什么关系。
3. BroadcastTest.scala
测试Broadcast,Broadcast是共享变量的广播变量,只读属性。
4. CassandraTest.scala
测试Cassandra数据库,它是Facebook开发然后开源的,类似google的BigTable。
5. ExceptionHandlingTest.scala
测试抛出异常功能。
6. GroupByTest.scala
测试,根据键值分组。
7. HBaseTest.scala
测试HBase,HBase是Hadoop的数据库,类似Google的BigTable。
8. HdfsTest.scala
测试Hdfs文件系统,Hdfs是Hadoop的文件系统,类似Google的GFS。
9. LocalALS.scala
ALS是交替最小二乘法,通常用于推荐系统的算法。
10. LocalFileLR.scala
逻辑回归算法。
11. LocalKMeans.scala
K-Means聚类算法。
12. LocalLR.scala
逻辑回归算法。
13. LogQuery.scala
以MapReduce的方式,处理Apache log。
14. MultiBroadcastTest.scala
测试多个Broadcast共享变量。
....
其他的代码,多是本地代码的并行版本。
1.1 命令行:
#spark安装在/home/brian/setup/spark-new/spark-0.8.0目录
cd /home/brian/setup/spark-new/spark-0.8.0
#在本地运行计算Pi值的Spark程序,4个工作线程
./run-example org.apache.spark.examples.SparkPi local[4]
1.2 Web UI
在Log里,可以看到 ui.SparkUI: Started Spark Web UI at http://brian-i3.local:4040
在浏览器地址栏输入http://brian-i3.local:4040,回车,可以看到作业执行情况。
1.3 SparkPi.scal的源代码分析
1.3.1 代码在examples/src/main/scala/org/apache/spark/examples目录下
1.3.2 代码内容如下:
package org.apache.spark.examples
import scala.math.random
import org.apache.spark._
import SparkContext._
/** Computes an approximation to pi */
object SparkPi {
def main(args: Array[String]) {
if (args.length == 0) {
System.err.println("Usage: SparkPi <master> [<slices>]")
System.exit(1)
}
val spark = new SparkContext(args(0), "SparkPi",
System.getenv("SPARK_HOME"), Seq(System.getenv("SPARK_EXAMPLES_JAR")))
val slices = if (args.length > 1) args(1).toInt else 2
val n = 100000 * slices
val count = spark.parallelize(1 to n, slices).map { i =>
val x = random * 2 - 1
val y = random * 2 - 1
if (x*x + y*y < 1) 1 else 0
}.reduce(_ + _)
println("Pi is roughly " + 4.0 * count / n)
System.exit(0)
}
}
核心的语句是这条:
val count = spark.parallelize(1 to n, slices).map { i =>
val x = random * 2 - 1
val y = random * 2 - 1
if (x*x + y*y < 1) 1 else 0
}.reduce(_ + _)
MapReduce过程一句话搞定,跟Hadoop比起来真是差别太大了,简单到令人泪下,如果用Hadoop的话,上百行代码肯定是有的。
2. LocalPi.scala
在本地计算Pi值,实际上这是一个Scala程序,跟Spark没什么关系。
3. BroadcastTest.scala
测试Broadcast,Broadcast是共享变量的广播变量,只读属性。
4. CassandraTest.scala
测试Cassandra数据库,它是Facebook开发然后开源的,类似google的BigTable。
5. ExceptionHandlingTest.scala
测试抛出异常功能。
6. GroupByTest.scala
测试,根据键值分组。
7. HBaseTest.scala
测试HBase,HBase是Hadoop的数据库,类似Google的BigTable。
8. HdfsTest.scala
测试Hdfs文件系统,Hdfs是Hadoop的文件系统,类似Google的GFS。
9. LocalALS.scala
ALS是交替最小二乘法,通常用于推荐系统的算法。
10. LocalFileLR.scala
逻辑回归算法。
11. LocalKMeans.scala
K-Means聚类算法。
12. LocalLR.scala
逻辑回归算法。
13. LogQuery.scala
以MapReduce的方式,处理Apache log。
14. MultiBroadcastTest.scala
测试多个Broadcast共享变量。
....
其他的代码,多是本地代码的并行版本。
- 从零开始学习Spark--第3章 spark的example
- 从零开始学习Spark--第2章 spark开发
- 从零开始学习Spark--第4章 Spark的各种运行方式
- 从零开始学习Spark--第1章 安装和测试
- 从零开始学习Spark--第5章 SparkContext类分析
- Spark的Example---SparkPi
- Spark从零开始
- spark从零开始
- 学习spark第一天
- 《Spark机器学习》第4章--构建基于Spark的推荐引擎
- 许鹏:从零开始学习,Apache Spark源码走读
- Spark SQL Example
- Spark example WordCount
- spark第3天
- spark学习笔记3 spark应用程序之间的调度
- Spark从零开始学 三
- 从零开始学Spark
- [Spark]Spark Streaming 指南一 Example
- P2P在NAT和STUN
- java中的值传递和引用传递
- vim 常用命令
- JavaScript 特殊字符
- java创建数据库
- 从零开始学习Spark--第3章 spark的example
- tabBarController 的隐藏问题
- Java使用JNI调用DLL的问题总结
- API(Application Programming Interface)应用程序编程接口
- Maven dependency 包冲突解决方案
- CSS和JS标签style属性对照表
- 64位windows 7下成功配置TortoiseGit使用Github服务器
- 利用定时器使ViewPager页面滚动显示
- 【Leetcode】Combination Sum II