《Data-Intensive_Text_Processing0Awith_MapReduce》笔记第3章
来源:互联网 发布:mac 安装多个xcode 编辑:程序博客网 时间:2024/06/06 08:27
3.1介绍通过本地聚合减少网络的传输量
第一种方法,通过在map中使用HashMap来聚合数据,HashMap的key是map中的key
为了避免可能的内存溢出,可以对输入的行进行计数,当达到一定的行数的时候,将map全部输出,或者将出现次数低的输出,保留出现次数多的key,与后续的数据融合。
mapreduce框架不保证combiner每次都能调用,在计算均值的时候,reducer不能当做combiner来用。这时候也不能写一个与reducer不同的combiner,因为combiner不能改变输输入输出的类型,并且是可选的,如果改了,reduce就无法识别输入了。
3.2介绍两种设计模式 pairs 和 stripes
举例如何计算词共现矩阵。词共现矩阵考察一句话中两个词共现的的频率。
pairs map输出的方式如下Emit(pair (w; u); count 1);
stripes的map输出方式:Emit(Term w; Stripe H);其中H是一个HashMap,两层for循环都完成以后才输出一个。
3.3介绍相对频率
3.4介绍二次排序
3.5排序的不同方法:map端的,reduce端的,memory-backed的方式
- 《Data-Intensive_Text_Processing0Awith_MapReduce》笔记第3章
- 深入C++对象模型学习笔记 第3章 Data 语意学
- 第5章 Data Prefetch
- 《Mining Text Data》阅读笔记---第1章 An Introduction to Text Mining
- tcp/ip学习笔记--第11章 UDP(user data protocol)
- tcp/ip学习笔记--第19章 TCP interactive data flow (交互数据流)
- tcp/ip学习笔记--第20章 TCP Bulk data flow
- Spring Data Redis ---笔记3
- 第3章学习笔记
- 第11章 Basic Core Data
- Python for Data Analysis 第9章
- C++标准程序库 笔记:第2章,第3章
- Android《第一行代码》第1~3章 笔记
- 第3章 Data语意学-《深度探索C++对象模型》读书笔记
- 《深度探索C++对象模型》- 第3章 Data 语意学
- 【深度探索C++对象模型读书笔记】【第3章】Data语意学
- 【SpringData】轻松愉快之玩转SpringData( 第3章 Spring Data快速入门 )
- 第3章:TTCN-3基础-笔记
- atexit函数的作用
- 使用VMware构建快采调试环境(C/S结构)
- 什么是CSDN
- dlopen中几个flag的区别
- MTK Camera程序架构(1)
- 《Data-Intensive_Text_Processing0Awith_MapReduce》笔记第3章
- 多线程(.NET)
- Python 处理excel并转为table
- linux 查看文件夹大小
- 绝对元素的对齐与偏移
- mysql字符集设置和查询问题(转)
- 关于python处理作Excel文件的一些问题,包括时间处理 (转)
- rac相关参数
- 关于python处理作Excel文件的一些问题,包括时间处理 (转)