R语言 使用sparklyr包连接spark,遇到的问题及解决
来源:互联网 发布:知聊可以提现吗 编辑:程序博客网 时间:2024/06/06 06:51
1. 首先要安装好spark,我安装的是CDH5.6版本,该版本中的spark是1.5.0,版本太低不能支持sparklyr包,按照官网的例子至少应该是spark1.6.2版本,所以我从官网下载了spark1.6.2版本重新安装到了我的hadoop中。
2.安装完了之后有一个很重要的步骤就是要配置spark_home,要在Renviron.site文件中进行配置,例如我的文件目录是usr/lib64/R/etc/Renviron,在该文件中写入类似
SPARK_HOME=/opt/spark/spark-2.0.0-bin-hadoop2.6(这里是自己单独安装hadoop组件的时候你的spark路径),我使用的CDH版本,spark目录位置:SPARK_HOME=/opt/cloudera/parcels/CDH/lib/spark。
3. 使用官网例子尝试连接:
library(sparklyr)
library(dplyr)
sc <- spark_connect(master = "local") ###本地使用local,如果使用集群的话,例如我的是CDH版本,那么就要使用yarn-client
连接上之后,尝试向spark传数据
iris_tbl <- copy_to(sc, iris)
这个时候你可能会报一个错误,/temp/hive的写入权限问题,如下图所示:
这个错误需要你修改该路径的权限:sudo -u hdfs hadoop fs -chmod -R 777 /tmp/hive/; 使用该代码运行即可。
然后再运行
iris_tbl <- copy_to(sc, iris)
src_tbls(sc)
[1] "iris"当出现上面的结果的时候,就是连接和配置成功了。然后你可以开启你的基于R的大数据之旅了。
点击链接加入群【R语言&大数据分析】:https://jq.qq.com/?_wv=1027&k=4CBEBJl,或加QQ群号:456726635。
有任何问题可以加群跟我联系。
- R语言 使用sparklyr包连接spark,遇到的问题及解决
- sparklyr包:实现Spark与R的接口+sparklyr 0.5
- sparklyr包:实现Spark与R的接口
- R语言写入excel表遇到的问题及解决
- sparklyr包:Spark Machine Learning
- R语言 出现的问题及解决
- 安装sparklyr包过程中遇到的几个ERROR
- sparklyr — R interface for Apache Spark
- spark 使用中会遇到的一些问题及解决思路 spark-shell命令行执行spark hql
- R语言中包的安装一些问题的解决
- spark 使用中会遇到的一些问题及解决思路
- spark 使用中会遇到的一些问题及解决思路
- 解决R语言xlsx安装遇到问题
- 解决R语言xlsx安装遇到问题
- R语言-使用RMySQL包连接数据库
- 使用RecyclerView遇到的问题及解决
- 使用Putty远程连接Linux系统遇到的问题及解决方式
- sparklyr包:dplyr包在Spark中的用法
- C++内存分配方式详解——堆、栈、自由存储区、全局/静态存储区和常量存储区
- 寻找连同块——油田问题 HDU 1241
- HDU 2594 next[len]应用
- Fedora设置静态ip
- 新建地图下载任务的六种方式
- R语言 使用sparklyr包连接spark,遇到的问题及解决
- 数日子
- VC2010中自定义消息
- 关于职业
- java中的位运算符
- 关于maven中版本控制问题
- Marriage Match IV HDU3461 网络流+最短路spfa
- 定时自动执行Sqoop及Hive命令
- 【解决思路记录】mac chrome跨域问题