mahout 0.9 + hadoop 1.0.2 实现中文文本聚类
来源:互联网 发布:单片机开发系统pcb论文 编辑:程序博客网 时间:2024/05/22 04:48
近来一直致力于实现mahout 0.9 的中文文本聚类,网上关于mahout 0.9 的英文文本聚类实现资料较为丰富,这里不再赘述。
遇到的问题是:mahout 0.9在处理中文时默认的分词器是 StandardAnalyzer, 其会将中文按单字分词,显然不符合我们的期望。
我们需要添加自己的分词工具,这里使用mmseg4j,它可支持lucene 4.6.1。
首先,修改mahout源码中examples目录下的pom.xml配置文件,添加依赖Jar包mmseg4j
添加代码:
<dependency> <groupId>com.chenlb.mmseg4j</groupId> <artifactId>mmseg4j-solr</artifactId> <version>2.0.0</version></dependency>
接着,将mahout源码examples导入到maven project中,maven会自动下载所需Jar包,不报错的情况下,Run As -> maven install,会在项目target文件夹中生成新的Jar包。
最后,用新Jar包替换mahout原Jar包,重新运行mahout相关命令。
注:在运行seq2sparse命令时,指定分词器
-a com.chenlb.mmseg4j.analysis.SimpleAnalyzer
还可以选择 ComplexAnalyzer or MaxWordAnalyzer
——————————————————————————————————————————————————
默认条件:
linux + eclipse + maven插件 + hadoop
知道如何使用maven,并知道如何将mahout源码导入到maven project 中
__________________________________________________________________________________________
参考资料链接:
http://my.oschina.net/u/1047640/blog/262468
http://blog.csdn.net/authorzhh/article/details/7904560
- mahout 0.9 + hadoop 1.0.2 实现中文文本聚类
- 利用LDA进行文本聚类(hadoop, mahout)
- Mahout文本聚类实例
- mahout之聚类实现
- mahout应用kmeans进行文本聚类2之——实例分析
- Mahout文本聚类学习之DocumentProcessor类
- Mahout聚类质量度量与hadoop的应用
- 一个基于Mahout与hadoop的聚类搭建
- 一个基于Mahout与hadoop的聚类搭建
- Mahout 中文分类 (2)
- 【hadoop】大规模中文网站聚类 kmeans 的 mapreduce 实现
- Python中文文本聚类
- Spark中文文本聚类
- 利用Mahout实现在Hadoop上运行K-Means算法
- 利用Mahout实现在Hadoop上运行K-Means算法
- Mahout基于hadoop实现itembased协同过滤流程解析
- mahout下的Hadoop平台上的Kmeans算法实现
- 利用Mahout实现在Hadoop上运行K-Means算法
- 【中断异常】中断请求队列的初始化
- php递归无限极分类
- day17过滤器 禁止缓存中文乱码自动登录MD5加密url级别权限控制
- USACO/fence8 迭代加深搜索+剪枝
- PowerDesigner15 链接Oracle
- mahout 0.9 + hadoop 1.0.2 实现中文文本聚类
- Essential 银光仪表盘控件包Essential Gauge for Silverlight控件下载及介绍
- 优美的Fibonacci数列与矩阵
- 深入理解Java运行时数据区
- QT窗口:widget
- 软件架构学习小结
- 安卓图表引擎AChartEngine(一) - 简介
- subMaxProduct
- Telnet和SSH(ssh1,ssh2)间区别