spark | 读数据
来源:互联网 发布:政务电子地图数据规范 编辑:程序博客网 时间:2024/04/27 15:49
为何要单独一个博文来记录读取数据呢?我觉得读数据很重要,涉及到不同格式的数据,各式各样的情况,故而记之。
注意:以python语言为工具
- 读csv格式的
本数据有3列
# -*- coding:utf-8 -*- from pyspark import SparkContextsc = SparkContext("local[2]", "First Spark App")# we take the raw data in CSV format and convert it into a set of records of the form (user, product, price)data = sc.textFile("data/UserPurchaseHistory.csv").map(lambda line: line.split(",")).map(lambda record: (record[0], record[1], record[2]))
上面代码中核心代码是:
sc.textFile("data/UserPurchaseHistory.csv").map(lambda line: line.split(",")).map(lambda record: (record[0], record[1], record[2]))
第一个map是用于分割,第二个map用于读取列
采用lambda函数
继续更新中。。。
1 0
- spark | 读数据
- Spark从数据库读数据操作
- spark graphx从txt文件中读数据构建图
- 从文件读数据
- select 读数据
- 串口读数据
- FBO读数据
- 读数据库
- struts2读数据库
- MATLAB 读数据操作
- django 读数据
- DataNode读数据
- AnsiString 读数据
- c# 读数据库
- 读数
- 读数
- spark 从HIVE读数据导入hbase中发生空指针(java.lang.NullPointerException)问题的解决
- 串口实现一个一个读数据
- 程序员书籍列表
- 理解redis高可用方案
- 南门口Blues
- php下正则替换多个<br />
- 有氧运动 无氧运动
- spark | 读数据
- KMP算法
- 进度条(progress bar)
- Vuex核心知识(2.0)
- javascript面向对象
- C++对象模型
- Vuex 模块化与项目实例 (2.0)
- HDU1728 逃离迷宫
- php 发出get与post请求