Solr自定义分词器-通过特殊字符分词
来源:互联网 发布:ekf算法 编辑:程序博客网 时间:2024/06/14 20:28
摘要: 在对英文句子分词的时候,一般采用采用的分词器是WhiteSpaceTokenizerFactory,有一次因业务要求,需要根据某一个特殊字符(以逗号分词,以竖线分词)分词。感觉这种需求可能与WhiteSpaceTokenizerFactory相像,于是自己根据Solr源码自定义了分词策略。
业务场景
有一次,我拿到的数据都是以竖线“|”分隔,分词的时候,需要以竖线为分词单元。比如下面的这一堆数据:
有可能你拿到的是这样的数据,典型的例子就是来自csv文件的数据,格式和下面这种类似:
分词思路
在Solr的schema.xml
文件中,有这样的配置
<fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="solr.WhitespaceTokenizerFactory"/> </analyzer></fieldType>
对于字段类型text_ws
,指定了一个分词器工厂WhitespaceTokenizerFactory
,根据这个类,可以实现通过空格来分词,那么我通过竖线分词的代码应该与之类似。
修改源码
在Java工程中引入如下jar包:
<dependency> <groupId>org.apache.solr</groupId> <artifactId>solr-core</artifactId> <version>6.0.0</version></dependency>
参照WhitespaceTokenizerFactory
的源码,写一个自己的MyVerticalLineTokenizerFactory
,内容基本不变:
package com.trainning.project.custom;import java.util.Arrays;import java.util.Collection;import java.util.Map;import org.apache.lucene.analysis.Tokenizer;import org.apache.lucene.analysis.core.UnicodeWhitespaceTokenizer;import org.apache.lucene.analysis.util.TokenizerFactory;import org.apache.lucene.util.AttributeFactory;/*** @author JiangChao* @date 2017年4月2日下午3:41:13*/public class MyVerticalLineTokenizerFactory extends TokenizerFactory{ public static final String RULE_JAVA = "java"; public static final String RULE_UNICODE = "unicode"; private static final Collection<String> RULE_NAMES = Arrays.asList(RULE_JAVA, RULE_UNICODE); private final String rule; /** Creates a new MyVerticalLineTokenizerFactory */ public MyVerticalLineTokenizerFactory(Map<String,String> args) { super(args); rule = get(args, "rule", RULE_NAMES, RULE_JAVA); if (!args.isEmpty()) { throw new IllegalArgumentException("Unknown parameters: " + args); } } @Override public Tokenizer create(AttributeFactory factory) { switch (rule) { case RULE_JAVA: return new MyVerticalLineTokenizer(factory); case RULE_UNICODE: return new UnicodeWhitespaceTokenizer(factory); default: throw new AssertionError(); } }}
具体做分词的MyVerticalLineTokenizer
代码如下
package com.trainning.project.custom;import org.apache.lucene.analysis.util.CharTokenizer;import org.apache.lucene.util.AttributeFactory;/*** @author JiangChao* @date 2017年4月2日下午9:46:18*/public class MyVerticalLineTokenizer extends CharTokenizer { public MyVerticalLineTokenizer() { } public MyVerticalLineTokenizer(AttributeFactory factory) { super(factory); } /** Collects only characters which do not satisfy * 参数c指的是term的ASCII值,竖线的值为 124 */ @Override protected boolean isTokenChar(int c) { return !(c == 124); }}
这里最主要的方法就是isTokenChar
,它控制了分词的字符,如果需要使用逗号分词的话,字需要将这个方法修改成下面这样:
/** Collects only characters which do not satisfy * 参数c指的是term的ASCII值,逗号的值为 44 */ @Override protected boolean isTokenChar(int c) { return !(c == 44); }
整合
代码写好了,怎么使用呢?首先,需要把刚才的java文件打成jar包。我使用的是Eclipse,直接选中两个类文件,右键 -> Export -> JAR File -> Select the export destination: ->选择输出路径,填一个jar名字:MyVerticalLineTokenizerFactory -> Finish
得到的MyVerticalLineTokenizerFactory.jar文件大约3KB,将改文件放置到.\solr_home\lib下,在shcema.xml
中定义自己的field
<fieldType name="vertical_text" class="solr.TextField"> <analyzer> <tokenizer class="com.trainning.project.custom.MyVerticalLineTokenizerFactory"/> </analyzer> </fieldType> <field name="custom" type="vertical_text" indexed="true" stored="false"/>
注意这里的class
是刚才自己写的分词器的完整类名。
打开Solr主页,在Analysis页面测试一下,是否实现了预期?
代码仓库:GitHub
Jar包文件:CSDN下载
- Solr自定义分词器-通过特殊字符分词
- solr 自定义分词器
- solr自定义分词器
- solr自定义分词器
- Solr自定义分词器
- solr自定义分词器
- Solr配置IK分词器自定义词库
- Solr 中文分词器
- solr分词器
- solr 中文分词器
- solr分词
- solr中Analyzer(分词器)及其自定义
- [Nutch]Solr配置自定义的中文分词器mmseg4j
- solr配置中文分词器
- solr安装mmseg4j 分词器
- solr 中文分词器配置
- solr配置中文分词器
- solr集成IK分词器
- 机器学习笔记2---model representation
- 免费不容错过!斯坦福Swift教程又来啦
- POJ1006: 中国剩余定理的完美演绎
- ssh框架登陆demo及html框架集
- 安卓开发——Androidstudio设置鼠标悬浮其上显示文档注释功能
- Solr自定义分词器-通过特殊字符分词
- 黑客又出招:入侵打印机 勒索比特币
- js判断两次点击是否是同一个对象
- 求最大公约数的线性组合【欧几里得模板及扩展欧几里得模板】
- ijkplayer eclipse 运行错误解决java.lanBinary XML file line #16: Error inflating class tv.danmaku.ijk.media
- 【LaTeX Tips】LaTeX 中公式编号括号样式及章节关联的方法
- weblogic 启动常见错误解决
- 【SSH网上商城项目实战25】使用java email给用户发送邮件
- 【学习记录】4.使用Arrays给数组排序