Luncene学习笔记 -- day04 分词器
来源:互联网 发布:西门子冰箱知乎 编辑:程序博客网 时间:2024/06/05 11:03
一:查看分词器的分词效果
1.步骤:
a、创建一个分词器对象
b、调用分词器对象的tokenStream方法,参数就是要分词的内容,返回TokenStream对象
c、遍历TokenStream对象
(1)、设置引用,代表当前的关键词。相当于指针
(2)、调用tokenStream的rest方法
(3)、循环tokenSteam中的内容
(4)、打印单词列表
d、关闭tokenSteam
2.具体代码
@Testpublic void testTokenStream() throws Exception {// 1)创建一个分析器对象//Analyzer analyzer = new StandardAnalyzer();// 2)调用分析器对象的tokenStream方法,参数就是要分析的内容。返回TokenStream对象。//参数1:域的名称,此时可以任意 参数2:要分析的文本内容TokenStream tokenStream = analyzer.tokenStream("", "鲁大师是国内最大的免费系统工具软件,免费提供硬件真伪辨别、电脑(手机)稳定保障、系统性能提升, 鲁大师拥有硬件检测、硬件测试、系统优化、节能降温、驱动安装、驱动");// 3)遍历TokenStream对象// a.设置引用,代表当前的关键词。相当于指针。CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);// b.调用tokenstream的rest方法。tokenStream.reset();// c.循环取tokenstream中的内容while(tokenStream.incrementToken()) {// d.打印单词列表System.out.println(charTermAttribute);}// 4)关闭tokenstreamtokenStream.close();}
二:IK分词器的使用
1.导入jar包
2.导入配置文件以及扩展词停用词文件
3.配置文件配置
<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties> <comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典 --><entry key="ext_dict">ext.dic;</entry> <!--用户可以在这里配置自己的扩展停止词字典--><entry key="ext_stopwords">stopword.dic;</entry> </properties>
4.代码编写
//创建一个标准分词器Analyzer analyzer = new IKAnalyzer();
阅读全文
0 0
- Luncene学习笔记 -- day04 分词器
- Luncene学习笔记 -- day05 域
- C++ 学习笔记 day04
- mysql 学习笔记 day04
- Oracle学习笔记--day04
- struts2 day04学习笔记
- Luncene学习笔记 -- day03 入门程序
- luncene全文搜索引擎(中文分词)
- 黑马程序员 java学习笔记(day04)
- 21天学通Java学习笔记-Day04
- Android学习笔记 day04 _ 网络编程
- JAVA语言基础 +JAVA学习笔记-DAY04
- MySQL学习笔记 -- day04 多表查询
- git学习笔记 -- day04 分支管理
- FastDFS学习笔记 -- day04 与Nginx整合
- Oracle学习笔记day04——数据类型
- Day04笔记
- day04笔记
- 工程应用标准示范程序:将一个ADC采样值转换为ASCII码
- 最简洁高效的Git 命令上传代码【以及Git的一些经常使用的小命令】
- Linux下socket编程之线程池的实现
- jQuery的extend的用法
- 数据结构之链表的实例
- Luncene学习笔记 -- day04 分词器
- C++11auto类型说明符
- Java连接hive报错01
- C语言——完数
- Springmvc的入门---配置
- python数据持久化到文件并读取:pickle的使用
- struts报错严重: Dispatcher initialization failed Unable to load configuration.
- 文本特征选择-互信息
- 数据结构之链表的实例