spark单机环境(支持hive)部署

来源:互联网 发布:武汉软件职业技术学院 编辑:程序博客网 时间:2024/04/28 22:05

一.安装hadoop 2.6.4

core-site.xml

<configuration>
     <property>
         <name>fs.default.name</name>
         <value>hdfs://localhost:9000</value>
     </property>
     <property>
         <name>hadoop.tmp.dir</name>
         <value>/tmp/hadoopTmp</value>
     </property>
</configuration>

hdfs-site.xml

<configuration>
     <property>
         <name>dfs.replication</name>
         <value>1</value>
     </property>
</configuration>


下面两个不要把目录配置到系统/tmp目录下 ,因为每次重启会清空

    <property>
        <name>dfs.name.dir</name>
        <!--<value>/tmp/hadoopTmp/name</value>-->
        <value>/home/yujunjun/software/hadoop/hadoop-namenode/namenode</value>
    </property>
    <property>
        <name>dfs.data.dir</name>
        <value>/home/yujunjun/software/hadoop/hadoop-datanode/data</value>
    </property>

hadoop-env.sh

export hadoop的path

二.安装hive 1.2.1

1.安装mysql download mysql 的connectjar包

2.配置元数据位置,把mysql的连接jar包 mysql-connector-java-5.1.39-bin.jar拷贝到lib目录下

三.编译安装spark2.0

http://www.voidcn.com/blog/zbc1090549839/article/p-6187029.html

拷贝

编译命令:

mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0 -Phive -Phive-thriftserver -DskipTests clean package
./make-distribution.sh --tgz --name 2.6.0 -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0 -Phive -Phive-thriftserver -Pspark-ganglia-lgpl -Pkinesis-asl
其中 -Phadoop-2.6 -Dhadoop.version=2.6.0  指定安装spark时hadoop版本,一定要对应。 -Phive -Phive-thriftserver让其支持Hive。 -DskipTests能避免测试不通过时发生的错误。

注意编译参数:-Phive -Phive-thriftserver

安装spark:

安装前,确保Hadoop集群、Mysql、hive已经安装且能正常使用。
解压安装,按照网上通用的方法安装后,还需要:
  • 将hive/conf/hive-site.xml、hadoop/conf/core-site.xml、hdfs-site.xml拷入spark/conf目录下。
  • 如果hive元数据库配置的为mysql数据库,需要将mysql-driver(mysql-connector-java-5.1.38-bin.jar)拷贝至spark安装目录的lib目录下。
配置:

spark-env.sh

export SPARK_MASTER_IP=localhost
export SPARK_WORKER_MEMORY=4G
export MASTER=local[2]


0 0