spark-shell示例
来源:互联网 发布:知乎live过期收听购买 编辑:程序博客网 时间:2024/06/10 22:51
Scala 行数统计
scala> val lines = sc.textFile("README.md")
lines: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[1] at textFile at <console>:24
scala> lines.count()
res0: Long = 99
scala> lines.first()
命令及结果示例
scala> val lines = sc.textFile("README.md")
lines: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[1] at textFile at <console>:24
scala> lines.count()
res0: Long = 99
scala> lines.first()
res1: String = # Apache Spark
其中 README.md 默认是spark安装路径bin/下的README.md文件,多种读取方式,
1、本地文件:val lines =sc.textFile("file:///root/bus_info.txt")
还可以通过通配符的形式加载多个文件或者加载多个目录下面的所有文件
假设我的数据结构为先按天分区,再按小时分区的,在hdfs上的目录结构类似于:
/user/hdfs/input/dt=20130728/hr=00/
/user/hdfs/input/dt=20130728/hr=01/
...
/user/hdfs/input/dt=20130728/hr=23/
具体的数据都在hr等于某个时间的目录下面,现在我们要分析20130728这一天的数据,我们就必须把这个目录下面的所有hr=*的子目录下面的数据全部装载进RDD,于是我们可以这样写:sc.textFile("hdfs://n1:8020/user/hdfs/input/dt=20130728/hr=*/"),注意到hr=*,是一个模糊匹配的方式。
2、hdfs文件中读取:val lines2 =sc.textFile("hdfs://localhost:8082/user/spark/bus_info.txt")
0 0
- spark-shell示例
- spark-shell简单使用示例
- spark示例
- spark 操作 spark-shell
- SHELL 示例
- shell示例
- Spark学习--spark-shell使用
- Spark源码解析-spark-shell
- spark streaming 示例
- Spark DataFrame示例
- Spark机器学习示例
- spark sql简单示例
- spark简单代码示例
- Spark sql 简单示例
- Spark SQL 应用示例
- Spark入门示例
- Spark算子使用示例
- Spark算子使用示例
- [生存志] 第25节 历代大事件概览 元朝
- APP调用服务器API设计
- android 点击图像显示大图
- NSTextAttachment
- Session缓存和Cache缓存
- spark-shell示例
- 插入排序(InsertSort)
- Bootstrap<列表>
- the password has expired
- Android最佳的开源库集锦
- 神经网络的机器学习(Neural Networks for Machine Learning)(6)
- Android studio在项目崩溃以后不显示崩溃信息处理
- Android自定义UI实战(基础篇1)---组合控件封装
- EventBus的使用方式