Spark--python开发实例
来源:互联网 发布:张宇唱功知乎 编辑:程序博客网 时间:2024/04/29 07:40
-spark python开发---------------
cond.py
def isFirstMinute(line) :
return line.split('\t')[0] < '00:01:00'
---------------
sort.py
from pyspark import SparkContext
sc = SparkContext("spark://server1:8888", "Python Sort", pyFiles=['cond.py'])
data = sc.textFile("hdfs://server1:9000/user/cc/reduced/")
print data.filter(lambda line : len(line.split('\t')) == 5).map(lambda line : (line.split('\t')[1],1)).reduceByKey(lambda x , y : x + y ).map(lambda pair : (pair[1],pair[0])).sortByKey(False).map(lambda pair : (pair[1],pair[0])).take(10) #.saveAsTextFile("hdfs://server1:9000/result")
------------------
wc.py
from pyspark import SparkContext
from cond import isFirstMinute
sc = SparkContext("spark://server1:8888", "Python Analysis", pyFiles=['cond.py'])
data = sc.textFile("hdfs://server1:9000/user/cc/reduced/")
#fltData = data.filter(lambda line : line.split('\t')[0] < '00:01:00')
fltData = data.filter(lambda line : isFirstMinute(line))
print 'first minute : ' + str(fltData.count())
-----------------------------------------
cond.py
def isFirstMinute(line) :
return line.split('\t')[0] < '00:01:00'
---------------
sort.py
from pyspark import SparkContext
sc = SparkContext("spark://server1:8888", "Python Sort", pyFiles=['cond.py'])
data = sc.textFile("hdfs://server1:9000/user/cc/reduced/")
print data.filter(lambda line : len(line.split('\t')) == 5).map(lambda line : (line.split('\t')[1],1)).reduceByKey(lambda x , y : x + y ).map(lambda pair : (pair[1],pair[0])).sortByKey(False).map(lambda pair : (pair[1],pair[0])).take(10) #.saveAsTextFile("hdfs://server1:9000/result")
------------------
wc.py
from pyspark import SparkContext
from cond import isFirstMinute
sc = SparkContext("spark://server1:8888", "Python Analysis", pyFiles=['cond.py'])
data = sc.textFile("hdfs://server1:9000/user/cc/reduced/")
#fltData = data.filter(lambda line : line.split('\t')[0] < '00:01:00')
fltData = data.filter(lambda line : isFirstMinute(line))
print 'first minute : ' + str(fltData.count())
-----------------------------------------
0 0
- Spark--python开发实例
- spark编程python实例
- python本地开发spark
- kafka+spark streaming代码实例(pyspark+python)
- [python 开发]python小实例
- Windows下Spark python 单机开发环境
- Spark源码核心与开发实战---Spark RDD与Spark API编程实例
- Spark实例
- python开发爬虫实例代码
- Spark及HDFS环境下使用python的wordcount实例
- spark插件开发简单实例(版本spark2.5.8)
- spark--二十种特征变换方法及Spark MLlib调用实例(Scala/Java/python)(一)
- python spark
- 在Python集成开发环境中调用Spark MLlib
- 使用PyCharm配置Spark的Python开发环境(基础)
- Windows下单机安装Spark开发环境机器 (java, python)
- Python开发Spark应用之Wordcount词频统计
- Windows10 Spark单机开发环境的搭建(Python)
- Saving HDU
- 缓冲区溢出与数据执行保护DEP介绍
- 剑指offer 二叉搜索树与双向链表
- Java虚拟机知识整理——方法调用
- 6、Java多线程机制
- Spark--python开发实例
- poj 1363 Rails 【栈】
- 杭电 4006 The kth great number(优先队列)
- VMware连接网络的方式详细介绍
- 2016年7月26 日的任务
- 学习记录2:优先队列 (二叉堆实现)
- yii2.0对数据库查询的一些简单操作
- Repair the Wall
- PyGobject(四)布局容器概述