Solr自定义分词器

来源:互联网 发布:在巴厘做异性spa 知乎 编辑:程序博客网 时间:2024/06/10 23:08

摘要: 在对英文句子分词的时候,一般采用采用的分词器是WhiteSpaceTokenizerFactory,有一次因业务要求,需要根据某一个特殊字符(以逗号分词,以竖线分词)分词。感觉这种需求可能与WhiteSpaceTokenizerFactory相像,于是自己根据Solr源码自定义了分词策略。

业务场景

有一次,我拿到的数据都是以竖线“|”分隔,分词的时候,需要以竖线为分词单元。比如下面的这一堆数据: 
列表内容 
有可能你拿到的是这样的数据,典型的例子就是来自csv文件的数据,格式和下面这种类似: 
这里写图片描述

分词思路

在Solr的schema.xml文件中,有这样的配置

<fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100">    <analyzer>      <tokenizer class="solr.WhitespaceTokenizerFactory"/>    </analyzer></fieldType>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 1
  • 2
  • 3
  • 4
  • 5

对于字段类型text_ws,指定了一个分词器工厂WhitespaceTokenizerFactory,根据这个类,可以实现通过空格来分词,那么我通过竖线分词的代码应该与之类似。

修改源码

在Java工程中引入如下jar包:

<dependency>        <groupId>org.apache.solr</groupId>        <artifactId>solr-core</artifactId>        <version>6.0.0</version></dependency>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 1
  • 2
  • 3
  • 4
  • 5

参照WhitespaceTokenizerFactory的源码,写一个自己的MyVerticalLineTokenizerFactory,内容基本不变:

package com.trainning.project.custom;import java.util.Arrays;import java.util.Collection;import java.util.Map;import org.apache.lucene.analysis.Tokenizer;import org.apache.lucene.analysis.core.UnicodeWhitespaceTokenizer;import org.apache.lucene.analysis.util.TokenizerFactory;import org.apache.lucene.util.AttributeFactory;/*** @author JiangChao* @date 2017年4月2日下午3:41:13*/public class MyVerticalLineTokenizerFactory extends TokenizerFactory{    public static final String RULE_JAVA = "java";    public static final String RULE_UNICODE = "unicode";    private static final Collection<String> RULE_NAMES = Arrays.asList(RULE_JAVA, RULE_UNICODE);    private final String rule;    /** Creates a new MyVerticalLineTokenizerFactory */    public MyVerticalLineTokenizerFactory(Map<String,String> args) {      super(args);      rule = get(args, "rule", RULE_NAMES, RULE_JAVA);      if (!args.isEmpty()) {        throw new IllegalArgumentException("Unknown parameters: " + args);      }    }    @Override    public Tokenizer create(AttributeFactory factory) {      switch (rule) {        case RULE_JAVA:          return new MyVerticalLineTokenizer(factory);        case RULE_UNICODE:          return new UnicodeWhitespaceTokenizer(factory);        default:          throw new AssertionError();      }    }}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46

具体做分词的MyVerticalLineTokenizer代码如下

package com.trainning.project.custom;import org.apache.lucene.analysis.util.CharTokenizer;import org.apache.lucene.util.AttributeFactory;/*** @author JiangChao* @date 2017年4月2日下午9:46:18*/public class MyVerticalLineTokenizer extends CharTokenizer {    public MyVerticalLineTokenizer() {    }    public MyVerticalLineTokenizer(AttributeFactory factory) {        super(factory);      }      /** Collects only characters which do not satisfy       *  参数c指的是term的ASCII值,竖线的值为 124       */      @Override      protected boolean isTokenChar(int c) {        return !(c == 124);      }}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26

这里最主要的方法就是isTokenChar,它控制了分词的字符,如果需要使用逗号分词的话,字需要将这个方法修改成下面这样:

    /** Collects only characters which do not satisfy     *  参数c指的是term的ASCII值,逗号的值为 44     */     @Override     protected boolean isTokenChar(int c) {        return !(c == 44);     }
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

整合

代码写好了,怎么使用呢?首先,需要把刚才的java文件打成jar包。我使用的是Eclipse,直接选中两个类文件,右键 -> Export -> JAR File -> Select the export destination: ->选择输出路径,填一个jar名字:MyVerticalLineTokenizerFactory -> Finish

得到的MyVerticalLineTokenizerFactory.jar文件大约3KB,将改文件放置到.\solr_home\lib下,在shcema.xml中定义自己的field

<fieldType name="vertical_text" class="solr.TextField">    <analyzer>      <tokenizer class="com.trainning.project.custom.MyVerticalLineTokenizerFactory"/>    </analyzer>  </fieldType>  <field name="custom" type="vertical_text" indexed="true" stored="false"/>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

注意这里的class是刚才自己写的分词器的完整类名。

打开Solr主页,在Analysis页面测试一下,是否实现了预期?


代码仓库:GitHub 
Jar包文件:CSDN下载

原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 用卫生巾过后瘙痒起疹子了怎么办 装修公司倒闭了装修保修卡怎么办 丈夫把妻子的车抵押出去了怎么办 亚马逊海外购超过两万的额度怎么办 增值税申报表进项税转出忘填怎么办 一般纳税人注册下来后未营业怎么办 增值税税率把3错开成了5怎么办 在义乌做压痕加工老板拖欠钱怎么办 蓝洞棋牌是赌博输了几万怎么办 夏季来月经用卫生巾外阴瘙痒怎么办 用洗衣机洗衣服忘掏卫生纸了怎么办 剖腹产后一个月了还有血怎么办 剖腹产两个月同房后下面有血怎么办 剖腹产后月子里便秘有血怎么办 产后10天b超检查有血块怎么办 吃完优思明月经没有血块怎么办 刨腹产妇42天还有恶露怎么办 打完孩子第五天同房了出血了怎么办 打完孩子同房了出了一点血怎么办 宫腔镜检查一个月同房流血多怎么办 宫颈活检后三天同房有出血怎么办 顺产侧切两个月之后同房感染怎么办 顺产40天还有暗红色的恶露怎么办 来姨妈了没带卫生棉条去游泳怎么办 母猪肚子里面的小猪下不出来怎么办 刚生小猪的母猪肚子胀怎么办 吃了两天中药肚子还疼怎么办 怀孕期间垫了脚够东西怎么办 月经期垫卫生巾有边红肿有疹怎么办 四十天拉今天恶露特别多怎么办 顺产侧切出院几天后伤口裂开怎么办 产后十几撕裂用卫生巾疼怎么办 婴儿绑肚脐的棉黏在肚脐上怎么办 割完双眼皮第五天了很痒怎么办 自体脂肪丰胸做完半年有团块怎么办 假体隆胸一个月了躺着睡很硬怎么办 假体隆胸半月俩胸大小不一样怎么办 假体隆胸拆线后还是起不来床怎么办 假体隆胸术后6天 天天胀痛怎么办 阴部大腿根长了个疙瘩有点痛怎么办 加盟费交了总部不做事怎么办