Collocations in Mahout阅读理解
来源:互联网 发布:mac 键盘控制声音 编辑:程序博客网 时间:2024/05/22 04:53
官网讲解:
https://cwiki.apache.org/MAHOUT/collocations.html
collocation是经常在一起出现的词,如coca cola
latent semantic indexing(LSI)可以解决这一问题,但mahout还没实现LSI,采用的是log-likelihood ratio(llr)方法
算法实施时经历了两个map-reduce pass
Pass 1: CollocDriver.generateCollocations(...)
主要是生成ngram及ngram出现频率等,n-gram的实现类是lucene的ShingleFilter类
reduce阶段需要采用Hadoop secondary sort strategy
Pass 2: CollocDriver.computeNGramsPruneByLLR(...)
- Collocations in Mahout阅读理解
- Mahout MinHash代码阅读理解
- Collocations
- mahout in action推荐系统阅读笔记(1)
- mahout in action推荐系统阅读笔记(2)
- mahout in action推荐系统阅读笔记(3)
- mahout in action推荐系统阅读笔记(4)
- mahout in action推荐系统阅读笔记(5)
- mahout in action推荐系统阅读笔记(6)
- mahout in action推荐系统阅读笔记(7)
- Mahout in action 目录
- Mahout in action翻译
- mahout in action 中文版
- mahout in action中文版
- mahout in action 1 初识Mahout
- [mahout in action] Mahout的下载、安装
- Mahout in action读书笔记&Mahout学习笔记
- Mahout In Action-第一章:初识Mahout
- 关于网络编程的一些笔记
- SAP 收货时,根据信息记录中的价格段来控制收货价格
- More Effective C++读书笔记15
- Mysql,SqlServer,Oracle主键自动增长的设置
- libsvm初步入门
- Collocations in Mahout阅读理解
- stat函数与S_宏
- grails通过配置使gsp即时生效
- 通过mysql学习mongodb语句
- java_main函数
- 后台控制页面隐藏
- Android实现ListView圆角效果
- org.apache.taglibs.standard.tlv.JstlCoreTLV
- PCI子系统之-resource插入算法