pyspark初探(一)LearningSpark
来源:互联网 发布:网络事件营销 编辑:程序博客网 时间:2024/05/16 18:06
启动
pysparkIPYTHON=1 pysparkIPYTHON_OPTS="notebook" pyspark(set IPYTHON=1 pyspark for windows)
执行python脚本
spark-submit my_script.py
初始化sparkcontext
from pyspark import SparkConf,SparkContextconf = SparkConf().setMaster("local").setAppName("Myapp")sc = SparkContext(conf=conf)
Ch5读取csv数据
如果没有换行符
import csvimport StringIO...def loadRecord(line): """Parse a CSV line"""input = StringIO.StringIO(line)reader = csv.DictReader(input, fieldnames=["name", "favouriteAnimal"]) return reader.next()input = sc.textFile(inputFile).map(loadRecord)
如果有换行符
需要把整个数据集加载进来
def loadRecords(fileNameContents):"""Load all the records in a given file"""input = StringIO.StringIO(fileNameContents[1])reader = csv.DictReader(input, fieldnames=["name", "favoriteAnimal"]) return readerfullFileData = sc.wholeTextFiles(inputFile).flatMap(loadRecords)
0 0
- pyspark初探(一)LearningSpark
- pySpark(一)--创建RDD
- pyspark
- 【pySpark教程】Introduction & 预备工作(一)
- 聚类(一)pyspark 实现特征的ID化
- 《Spark Python API 官方文档中文版》 之 pyspark.sql (一)
- [pyspark] pyspark使用记录
- 初探 PHP5 (一)
- Hibernate初探(一)
- COM初探(一)
- (一)python初探
- XML初探(一)
- 初探批处理(一)
- tolua++初探(一)
- 一、移动CRM初探
- COM技术初探(一)
- COM技术初探(一)
- GDB初探(一)
- B - Pairs Forming LCM——(LightOJ 1236)
- C#的装箱拆箱
- android_事件处理机制-监听器接口
- 【转来的精】iOS知识树,知识目录(包括对象、Block、消息转发、GCD、运行时、runloop、动画、Push、KVO、tableview,UIViewController、提交AppStore)
- 使用Arduino读取水位传感器数据
- pyspark初探(一)LearningSpark
- NHibernate-2.1.2 配置部分以及初始化连接
- Linux命令之文件系统(七)
- 第一次在CSDN上面写博客
- Android中dp和px转换的工具类【工具类静态方法注意防止内存泄露】
- 性能测试工具loadrunner学习
- Selector的一些state使用
- B
- 【考试】职称英语考试那些事儿