Spark的一些操作
来源:互联网 发布:解剖软件 编辑:程序博客网 时间:2024/06/06 00:47
1.建立字典:两种方法
方法一:
file = sc.textFile(add_keyWordWithFeature)Dict = {}def wordSplitAndBuilDict(x): return DictAction = file.map(lambda line:wordSplitAndBuilDict(json.loads(line)))
这种方法返回的是许多dict组成的列表,之后reduce一下组成一个新的大字典就好了
方法二:
file = sc.textFile(add_keyWordWithFeature)def wordSplitAndBuilDict(x,y): return Dictdef mergeDict(x,y): return Dictdef BuilDict(a,b): if type(a) != dict: preDict = {} Dict = wordSplitAndBuilDict(preDict,a) reDict = wordSplitAndBuilDict(Dict,b) else: if type(b) == dict: reDict = mergeDict(a,b) else: Dict = a reDict = wordSplitAndBuilDict(Dict,b) return reDictDict = file.reduce(lambda (a,b):BuilDict(json.loads(a),json.loads(b)))
这种方法其实就是把第一种方法中的两个步骤合并起来了.
阅读全文
0 0
- Spark的一些操作
- spark and intellij 的一些操作
- Spark 之 一些常用的操作
- Spark Hbase读取操作的一些总结与测试
- spark的一些介绍
- Spark的一些问题
- spark中的一些RDD操作以及变换
- spark 的reduce操作
- spark平时的一些笔记
- 一些spark的相关链接
- Spark Streaming 的一些问题
- Apache Spark 的一些浅见。
- 一些重要的spark术语
- 初学Spark的一些笔记
- 学习 spark 的一些疑问
- Spark的一些配置总结
- SPARK编译的一些记录
- Spark XGBoost的一些问题
- 06.14 memcached缓存服务
- bzoj3781 小B的询问(莫队)
- Winsock编程流程
- appium +夜神模拟器 java代码sendkeys 无法在模拟器输入中文
- Json学习笔记(三)-前端json字符串互转(4种转换方式)
- Spark的一些操作
- 将txt文本中的图片路径的图片读到某文件夹下
- oracle删除DBF文件
- 重启ORACLE数据库
- linux创建软连接
- JDK动态代理
- Navicat For Mysq中常用的l快捷键
- C语言内存空间分布详解
- Head First javaScript_#6函数