Solr自定义分词器-通过特殊字符分词

来源：互联网发布：ekf算法编辑：程序博客网时间：2024/06/14 20:28

摘要： 在对英文句子分词的时候，一般采用采用的分词器是WhiteSpaceTokenizerFactory，有一次因业务要求，需要根据某一个特殊字符（以逗号分词，以竖线分词）分词。感觉这种需求可能与WhiteSpaceTokenizerFactory相像，于是自己根据Solr源码自定义了分词策略。

业务场景

有一次，我拿到的数据都是以竖线“|”分隔，分词的时候，需要以竖线为分词单元。比如下面的这一堆数据：
列表内容
有可能你拿到的是这样的数据，典型的例子就是来自csv文件的数据，格式和下面这种类似：
这里写图片描述

分词思路

在Solr的schema.xml文件中，有这样的配置

<fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100">    <analyzer>      <tokenizer class="solr.WhitespaceTokenizerFactory"/>    </analyzer></fieldType>

对于字段类型text_ws，指定了一个分词器工厂WhitespaceTokenizerFactory，根据这个类，可以实现通过空格来分词，那么我通过竖线分词的代码应该与之类似。

修改源码

在Java工程中引入如下jar包：

<dependency>        <groupId>org.apache.solr</groupId>        <artifactId>solr-core</artifactId>        <version>6.0.0</version></dependency>

参照WhitespaceTokenizerFactory的源码，写一个自己的MyVerticalLineTokenizerFactory，内容基本不变：

package com.trainning.project.custom;import java.util.Arrays;import java.util.Collection;import java.util.Map;import org.apache.lucene.analysis.Tokenizer;import org.apache.lucene.analysis.core.UnicodeWhitespaceTokenizer;import org.apache.lucene.analysis.util.TokenizerFactory;import org.apache.lucene.util.AttributeFactory;/*** @author JiangChao* @date 2017年4月2日下午3:41:13*/public class MyVerticalLineTokenizerFactory extends TokenizerFactory{    public static final String RULE_JAVA = "java";    public static final String RULE_UNICODE = "unicode";    private static final Collection<String> RULE_NAMES = Arrays.asList(RULE_JAVA, RULE_UNICODE);    private final String rule;    /** Creates a new MyVerticalLineTokenizerFactory */    public MyVerticalLineTokenizerFactory(Map<String,String> args) {      super(args);      rule = get(args, "rule", RULE_NAMES, RULE_JAVA);      if (!args.isEmpty()) {        throw new IllegalArgumentException("Unknown parameters: " + args);      }    }    @Override    public Tokenizer create(AttributeFactory factory) {      switch (rule) {        case RULE_JAVA:          return new MyVerticalLineTokenizer(factory);        case RULE_UNICODE:          return new UnicodeWhitespaceTokenizer(factory);        default:          throw new AssertionError();      }    }}

具体做分词的MyVerticalLineTokenizer代码如下

package com.trainning.project.custom;import org.apache.lucene.analysis.util.CharTokenizer;import org.apache.lucene.util.AttributeFactory;/*** @author JiangChao* @date 2017年4月2日下午9:46:18*/public class MyVerticalLineTokenizer extends CharTokenizer {    public MyVerticalLineTokenizer() {    }    public MyVerticalLineTokenizer(AttributeFactory factory) {        super(factory);      }      /** Collects only characters which do not satisfy       *  参数c指的是term的ASCII值，竖线的值为 124       */      @Override      protected boolean isTokenChar(int c) {        return !(c == 124);      }}

这里最主要的方法就是isTokenChar，它控制了分词的字符，如果需要使用逗号分词的话，字需要将这个方法修改成下面这样：

    /** Collects only characters which do not satisfy     *  参数c指的是term的ASCII值，逗号的值为 44     */     @Override     protected boolean isTokenChar(int c) {        return !(c == 44);     }

整合

代码写好了，怎么使用呢？首先，需要把刚才的java文件打成jar包。我使用的是Eclipse，直接选中两个类文件，右键 -> Export -> JAR File -> Select the export destination: ->选择输出路径，填一个jar名字：MyVerticalLineTokenizerFactory -> Finish

得到的MyVerticalLineTokenizerFactory.jar文件大约3KB，将改文件放置到.\solr_home\lib下，在shcema.xml中定义自己的field

<fieldType name="vertical_text" class="solr.TextField">    <analyzer>      <tokenizer class="com.trainning.project.custom.MyVerticalLineTokenizerFactory"/>    </analyzer>  </fieldType>  <field name="custom" type="vertical_text" indexed="true" stored="false"/>

注意这里的class是刚才自己写的分词器的完整类名。

打开Solr主页，在Analysis页面测试一下，是否实现了预期？

代码仓库：GitHub
Jar包文件：CSDN下载

1 0