取出大文件里面的一部分数据
来源:互联网 发布:免费手机挂机赚钱软件 编辑:程序博客网 时间:2024/05/16 01:48
给你一个几g的数据,你是不容易处理的,一方面加载等处理过程较长,而且还很有可能导致你的电脑死机,或者spark-shell崩溃
有两个方法可以选择:randomSplit filter
方法一randomSplit
scala> val t1=sc.textFile("/media/wangtuntun/DOWNLOAD/AAS_Trip/trip_data_1.csv")
t1: org.apache.spark.rdd.RDD[String] = /media/wangtuntun/DOWNLOAD/AAS_Trip/trip_data_1.csv MapPartitionsRDD[11] at textFile at <console>:27
scala> val t2=t1.randomSplit(Array(0.001,0.999))
t2: Array[org.apache.spark.rdd.RDD[String]] = Array(MapPartitionsRDD[14] at randomSplit at <console>:29, MapPartitionsRDD[15] at randomSplit at <console>:29)
scala> val tLess=t2(0)
tLess: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[14] at randomSplit at <console>:29
scala> tLess.cache
res5: tLess.type = MapPartitionsRDD[14] at randomSplit at <console>:29
scala> tLess.count
res6: Long = 14762
方法二
scala> val split=t1.map(_.split(","))
split: org.apache.spark.rdd.RDD[Array[String]] = MapPartitionsRDD[18] at map at <console>:29
scala> val filter=split.filter( arr=>arr(8).toInt <100 )
filter: org.apache.spark.rdd.RDD[Array[String]] = MapPartitionsRDD[19] at filter at <console>:31
有两个方法可以选择:randomSplit filter
方法一randomSplit
scala> val t1=sc.textFile("/media/wangtuntun/DOWNLOAD/AAS_Trip/trip_data_1.csv")
t1: org.apache.spark.rdd.RDD[String] = /media/wangtuntun/DOWNLOAD/AAS_Trip/trip_data_1.csv MapPartitionsRDD[11] at textFile at <console>:27
scala> val t2=t1.randomSplit(Array(0.001,0.999))
t2: Array[org.apache.spark.rdd.RDD[String]] = Array(MapPartitionsRDD[14] at randomSplit at <console>:29, MapPartitionsRDD[15] at randomSplit at <console>:29)
scala> val tLess=t2(0)
tLess: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[14] at randomSplit at <console>:29
scala> tLess.cache
res5: tLess.type = MapPartitionsRDD[14] at randomSplit at <console>:29
scala> tLess.count
res6: Long = 14762
方法二
scala> val split=t1.map(_.split(","))
split: org.apache.spark.rdd.RDD[Array[String]] = MapPartitionsRDD[18] at map at <console>:29
scala> val filter=split.filter( arr=>arr(8).toInt <100 )
filter: org.apache.spark.rdd.RDD[Array[String]] = MapPartitionsRDD[19] at filter at <console>:31
0 0
- 取出大文件里面的一部分数据
- 取出大文件里面的一部分数据
- 1447 取出整数的一部分
- python 截取 取出一部分的字符串
- 如何从对象里面取出特定字段的数据
- 取出大数据量CLOB数据
- 怎么取出数据库中表的数据生成XML文件
- 安卓数据的文件保存和取出
- 读取指定文件夹里面的所有图片取出里面其中一张图片和判断文件夹或文件是否存在
- 从Set里面取出有序的记录
- 从Set里面取出有序的记录
- 从Set里面取出有序的记录
- 从Set里面取出有序的记录
- C# 取出HTML里面的文字
- 取出list里面某个字段的值
- android下SAX解析大xml数据时只解析出一部分的解决方法
- Oracle 里面如何实现只回滚某个事务的一部分内容?
- Java取一个数组里面第二大的数据
- 利用 perl 调用 Java 类,通过读取文件 获取调用类返回值
- C++第五次实验
- JavaScript中的类型转换
- chrome开发
- Ceph性能优化 之 配置参数调优
- 取出大文件里面的一部分数据
- 如何下载淘宝视频-淘宝视频下载详细以及注意
- 编写mapreduce程序实例——数据去重
- mysql触发器(Trigger)简明总结和使用实例
- PowerDesigner修改连接线的样式
- 怎么将本机密钥写入远程计算机ssh中
- C#DataTable
- 日志切割
- zTree