基于spark1.4.1的sparkR的实例操作
来源:互联网 发布:安徽航信网络发票2.0 编辑:程序博客网 时间:2024/06/11 22:59
[Author]: kwu
基于spark1.4.1的sparkR的实例操作,sparkR的操作基本语法与R一致,其中添加了rJava、rhdfs、SparkR的依赖库的支持。
1、集群启动SparkR
输入 bdcmagicR
关于启动脚本的封装参看 : http://blog.csdn.net/bdchome/article/details/48092499
2、加载依赖库
library("rJava")library("rhdfs")library("SparkR")按顺序依次加载
3、sparkR操作实例
1) 、基础的R语句
x <- 0for(i in 1:100){ x <- x+i}x
2)、sparkR操作hdfs上的文件
上传文件,并查看
hdfs.init()hdfs.put("/opt/bin/jar/people.json","hdfs://nameservice1/tmp/resources/people2.json")hdfs.cat("hdfs://nameservice1/tmp/resources/people.json")
sparkR操作该文件,找出年龄大于30的人
sqlContext <- sparkRSQL.init(sc)path <- file.path("hdfs://nameservice1/tmp/resources/people2.json")peopleDF <- jsonFile(sqlContext, path)printSchema(peopleDF)registerTempTable(peopleDF, "people")teenagers <- sql(sqlContext, "SELECT name FROM people WHERE age > 30")teenagersLocalDF <- collect(teenagers)print(teenagersLocalDF)sparkR.stop()返回结果:
最后需要关闭 sparkR.stop()
3)、通过sparkR操作spark-sql以hive的表为对象
hqlContext <- sparkRHive.init(sc)showDF(sql(hqlContext, "show databases"))showDF(sql(hqlContext, "select * from ods.tracklog where day='20150815' limit 15"))result <- sql(hqlContext, "select count(*) from ods.tracklog where day='20150815' limit 15")resultDF <- collect(result)print(resultDF)sparkR.stop()
返回结果:show databases;
查询返回结果:select * from ods.tracklog where day='20150815' limit 15
做为变量的返回:
最后需要关闭 sparkR.stop()
总结: sparkR可以完成R基础的操作,以hdfs上的操作,spark-sql的查询等。
以上实例,均在spark1.4.1上的sparkR测试通过,转载请注明出处, 和讯大数据.
2 0
- 基于spark1.4.1的sparkR的实例操作
- 基于spark1.4.1的sparkR的实例操作
- 基于spark1.4.1的sparkR的实例操作
- 基于CDH5.4的Spark1.4.1下SparkR的部署
- 基于CDH5.4的Spark1.4.1下SparkR的部署
- spark1.4.1中sparkR的编译使用全过程
- spark1.4.0基于yarn的安装心得体会
- spark1.4.0基于yarn的安装心得体会
- 基于spark1.4的Spark-Sql
- 基于spark1.4的Spark-Sql
- 基于Spark Mllib, 使用java api操作的电影推荐系统(spark1.5.2 jdk1.7)
- SparkR的安装配置
- SparkR的编译安装
- SparkR的配置
- SparkR后台进程的bug
- 基于spark1.3.1的spark-sql实战-01
- 基于spark1.3.1的spark-sql实战-02
- 基于spark1.3.1的spark-sql实战-01
- HealthKit 框架体系
- [leetcode] 151.Reverse Words in a String
- linux系统中读写流程
- HDU 3501 Calculation 2(欧拉函数)
- HDOJ 1217 Arbirage(最短路)
- 基于spark1.4.1的sparkR的实例操作
- HDU 2039 三角形(水~)
- HDOJ 题目3954 Level up(线段树去见面更新区间查询)
- 多态的实现(内存分析)
- 检查网页的不规范
- HDU 2040 亲和数(水~)
- leetcode1 Two Sum题解
- leetcode 230: Kth Smallest Element in a BST
- 虚函数的作用