Ubuntu 下安装sparklyr 并连接远程spark集群
来源:互联网 发布:effective java百度云 编辑:程序博客网 时间:2024/06/07 04:42
安装sparklyr
1.通过devtools包实现sparklyr包的安装:
install.packages("devtools")devtools::install_github("rstudio/sparklyr")
出现问题:安装不上,因为Ubuntu中需要安装一些包
$ sudo apt-get install libcurl4-openssl-dev libssl-dev
2.在本地安装spark
library(sparklyr)spark_install(version = "2.1.0",hadoop_version="2.7")
3.设置JAVA,SPRK,SPRK_VERSION环境变量
Sys.setenv(JAVA_HOME='/home/haoyu/jdk1.7')Sys.setenv(SPARK_HOME='/home/haoyu/spark/spark-2.1.0-bin-hadoop2.7')Sys.setenv(SPARK_VERSION='2.1.0')
4.连接本地spark
install.packages("dplyr")library(dplyr)sc <- spark_connect(master = "local")
5.连接远程spark
sc <- spark_connect(master="spark://192.168.20.172:7077")
注意:之前如果设置了环境变量的话,就直接使用以上语句就行,否则的话得在函数里添加环境变量的参数。
6.读取HDFS文件,并放进spark集群中
ccf_online_stage1_train <- spark_read_csv( sc, name="online_trian", path="hdfs://192.168.20.172:900/haoyu_data/O2O/ccf_online_stage1_train.csv", charset="utf-8")
阅读全文
0 0
- Ubuntu 下安装sparklyr 并连接远程spark集群
- Ubuntu下安装OpenSSH Server并在客户端远程连接Ubuntu
- Ubuntu下安装OpenSSH Server并在客户端远程连接Ubuntu(转)
- Ubuntu下安装OpenSSH Server并在客户端远程连接Ubuntu
- Ubuntu下安装OpenSSH Server并在客户端远程连接Ubuntu
- Ubuntu下安装MySQL,并开启远程
- ubuntu安装mysql ,win下远程连接
- Ubuntu 客户端安装handoop2.6.0并连接到集群
- ubuntu下直接连接远程服务器,并传输文件
- ubuntu下直接连接远程服务器,并传输文件
- ubuntu上安装mySQL数据库,并允许远程连接
- Ubuntu简单安装mysql 并配置远程连接
- 在Ubuntu上安装Mysql并远程连接
- Ubuntu安装mysql并开放远程连接登陆详细步骤
- ubuntu下安装spark
- hadoop集群下spark安装
- ubuntu下安装Ganglia并绑定hadoop集群
- Ubuntu系统下安装并配置Hadoop-2.2.0集群
- RabbitMQ (三)工作队列
- 二位数组与二级指针的错误赋值
- React学习(八)this.state
- Java中继承的一点小知识
- css三大特性
- Ubuntu 下安装sparklyr 并连接远程spark集群
- ActiveMQ
- jxl操作excel
- 简单的线性分类器
- 从零构建一个灰度发布环境(一)安装系统
- 使用Spring MVC统一异常处理实战
- RX.AutoImage+Fluent Airpak v2.1
- ARouter There is no route match the path [/xxx/xxx], in group [xxx][ ]
- Bootstrap轮播插件