用MR做相似度分析
来源:互联网 发布:java获取天气预报接口 编辑:程序博客网 时间:2024/05/21 19:50
Q:
有一批数据(10亿量级),数据内容包括:
content为一个句子
列之间以\t分割
like:
1 “互联网够公司的日志无处不在,web日志,js日志,搜索日志,监控日志等等”
2 "对于这些日志的离线分析(Hadoop),wget&rsync虽然人力维护成本较高,但可以满足功能行需求。但对于这些日志的实时分析需求(例如实时推荐,监控系统),则往往必须要引入一些“高大上”的系统"
计算每行数据的content和其他数据content的相似度
A:
两轮MapReduce:第一轮:
按照一定规则分割content,并以分割后的content内容为key,value为id,reduce阶段对value做排序后两两输出,实例如下:
原始数据:
10 X
20 Y
30 Z
假设X可以分割为A、B、C, Y可以分割为A、C、D, Z可以分割为A、D
则第一轮mapper的输出为:
<A,10>
<B,10>
<C,10>
<A,20>
<C,20>
<D,20>
<A,30>
<D,30>
使用分割后的content做key
reducer的输入为:
A {10,20,30}
B {10}
C {10,20}
D {10}
reduce计算逻辑:对value组按大小排序,排序后按序两两输出,组大小为1的不输出
reducer输出为
10,20 ----from A {10,20,30}
10,30 ----from A {10,20,30}
20,30 ----from A {10,20,30}
10,20 ----from C {10,20}
第二轮map-reduce:
对第一轮输出的数据做聚合,value为出现次数
10,20 2
10,30 1
20,30 1
阅读全文
0 0
- 用MR做相似度分析
- 用MapReduce做相似度分析
- MR分析
- 用gensim.doc2vec 建模、利用相似度做文本分类
- 利用opencv做图片相似度比较
- 利用opencv做图片相似度比较
- 利用余弦相似度做文本分类
- php-数据分析 余弦相似度实现
- Java进行语义相似度分析
- 微博用户相似度分析
- 朴素的句子相似度分析
- Java进行语义相似度分析
- N-Gram 算法用来做相似度比较
- JAVA做了个简易图像相似度计算器
- 文本分析系列——基于相似哈希信息指纹的文本相似度算法
- 相似度
- 《基于相似度分析的拼写校正器》
- LCS算法实现简单中文文本相似度分析
- Java之final修饰符
- 深入探索Java 8 Lambda表达式
- fragstats v3.3绿色版
- 南邮计算机科学与技术专业本科2014级课程设计II题目
- hmm 算法(1)
- 用MR做相似度分析
- 进程监控supervisor
- TCP\IP 数据流与数据包
- 原码,反码,补码
- java script特效
- IntelliJ IDEA下的使用git
- Bloom Filter算法及应用
- 英语口语必备900句
- Gossip算法学习