Spark 0.9的安装配置

来源:互联网 发布:linux命令入门 编辑:程序博客网 时间:2024/06/06 15:35

一、上传scala2.10.3到linux

    下载scala 2.10.3文件。网上的scala-2.10.3.tgz、scala-2.10.3.rpm,前者支持unix,后者专门给linux使用。但我这里还是使用了前者,因为是绿色的,方便配置。

二、上传Spark0.9的解压后文件

三、配置相关文件

    1、.bash_profile文件

export SCALA_HOME=/home/kituser/bigdata/scala-2.10.3
export SPARK_HOME=/home/kituser/bigdata/spark-0.9.0
export SPARK_EXAMPLES_JAR=$SPARK_HOME/examples/target/spark-examples_2.10-0.9.0-incubating.jar
export CLASSPATH=$CLASSPATH:$SPARK_HOME/assembly/target/scala-2.10:$SPARK_HOME/assembly/target/scala-2.10/spark-assembly_2.10-0.9.0-incubating-hadoop2.0.0-mr1-cdh4.2.0.jar
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME:$SPARK_HOME/sbin

    Spark 0.9的文件结构做了调整,原来的一个命令放在了新增的sbin目录下。

    2、设置conf/slaves

四、验证Spark

    1、单机运行:

run-example org.apache.spark.examples.SparkPi local

    2、集群运行(运行Start-all.sh,启动各节点后):

run-example org.apache.spark.examples.SparkPi spark://kit-b5:7077

run-example org.apache.spark.examples.SparkLR spark://kit-b5:7077

run-example org.apache.spark.examples.SparkKMeans spark://kit-b5:7077 /home/kituser/bigdata/spark-0.9.0/data/kmeans_data.txt 2 1

hadoop fs -put /home/kituser/bigdata/spark-0.9.0/data/kmeans_data.txt hdfs://kit-b5:8020/kmeans_data.txt

run-example org.apache.spark.examples.SparkKMeans spark://kit-b5:7077 hdfs://kit-b5:8020/kmeans_data.txt 2 1 同上

    3、从HDFS读取文件并运行WordCount(启动hadoop、spark后):

$ MASTER=spark://kit-b5:7077 spark-shell

scala> val file = sc.textFile("hdfs://kit-b5:8020/kmeans_data.txt");

scala> file.count();

scala> val count = file.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_+_);

scala> count.collect();

0 0