Luncene学习笔记 -- day04 分词器

来源:互联网 发布:西门子冰箱知乎 编辑:程序博客网 时间:2024/06/05 11:03

一:查看分词器的分词效果

1.步骤:

a、创建一个分词器对象

b、调用分词器对象的tokenStream方法,参数就是要分词的内容,返回TokenStream对象

c、遍历TokenStream对象

           (1)、设置引用,代表当前的关键词。相当于指针

           (2)、调用tokenStream的rest方法

           (3)、循环tokenSteam中的内容

           (4)、打印单词列表

d、关闭tokenSteam

2.具体代码

@Testpublic void testTokenStream() throws Exception {// 1)创建一个分析器对象//Analyzer analyzer = new StandardAnalyzer();// 2)调用分析器对象的tokenStream方法,参数就是要分析的内容。返回TokenStream对象。//参数1:域的名称,此时可以任意 参数2:要分析的文本内容TokenStream tokenStream = analyzer.tokenStream("", "鲁大师是国内最大的免费系统工具软件,免费提供硬件真伪辨别、电脑(手机)稳定保障、系统性能提升, 鲁大师拥有硬件检测、硬件测试、系统优化、节能降温、驱动安装、驱动");// 3)遍历TokenStream对象// a.设置引用,代表当前的关键词。相当于指针。CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);// b.调用tokenstream的rest方法。tokenStream.reset();// c.循环取tokenstream中的内容while(tokenStream.incrementToken()) {// d.打印单词列表System.out.println(charTermAttribute);}// 4)关闭tokenstreamtokenStream.close();}

二:IK分词器的使用

1.导入jar包

2.导入配置文件以及扩展词停用词文件


3.配置文件配置

<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  <properties>  <comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典 --><entry key="ext_dict">ext.dic;</entry> <!--用户可以在这里配置自己的扩展停止词字典--><entry key="ext_stopwords">stopword.dic;</entry> </properties>

4.代码编写

//创建一个标准分词器Analyzer analyzer = new IKAnalyzer();


原创粉丝点击