Solr分词器、过滤器、分析器。

来源：互联网发布：不备案的域名给解析吗编辑：程序博客网时间：2024/06/05 14:36

对一个document进行索引时，其中的每个field中的数据都会经历分析（分析就是组合分词和过滤），最终将一句话分成单个的单词，去掉句子当中的空白符号，大写转换小写，复数转单数，去掉多余的词，进行同义词代换等等。

如：This is a blog! this，is，a会被去除，最后剩下blog。当然 ! 这个符号也会被去除的。

这个过程是在索引和查询过程中都会进行的，而且通常两者进行的处理的都是一样的，这样做是为了保证建立的索引和查询的正确匹配。

分析器（Analyzer）是包含两个部分：分词器和过滤器。分词器功能将句子分成单个的词元token，过滤器就是对词元进行过滤。

solr自带了一些分词器，如果你需要使用自定义的分词器，那么就需要修改schema.xml文件。

schema.xml文件允许两种方式修改文本被分析的方式，通常只有field类型为solr.TextField的field的内容允许定制分析器。

方法一：使用任何org.apache.lucene.analysis.Analyzer的子类进行设定。

</fieldType>

方法二：指定一个TokenizerFactory，后面跟一系列的TokenFilterFactories（他们将按照所列的顺序发生作用），Factories被用来创建分词器和分词过滤器，他们用于对分词器和分词过滤器的准备配置，这样做的目的是为了避免通过反射创造的开销。

......

</analyzer>

.......

</analyzer>

需要说明的一点是，一些 Analyzer，TokenizerFactory 或者 TokenFilterFactory应该用带包名的全类名进行指定，请确保他们位于Solr的classpath路径下。对于org.apache.solr.analysis.*包下的类，仅仅通过solr.*就可以进行指定。

如果你需要使用自己的分词器和过滤器，你就需要自己写一个factory，他必须是BaseTokenizerFactory（分词器）或BaseTokenFilterFactory（过滤器）的子类。就像下面一样。

public class MyFilterFactory extends BaseTokenFilterFactory {
public TokenStream create(TokenStream input) {
return new MyFilter(input);
}
}

对于IK3.1.5版本已经完全支持了solr的分词，这样就不用自己来编写了，而对于中文的切词的话，IK对solr的支持已经很完美了。

Solr提供了哪些TokenizerFactories？

solr.LetterTokenizerFactory，创建org.apache.lucene.analysis.LetterTokenizer。分词举例：“I can't”→“I”，“can”，“t”，字母切词。
solr.WhitespaceTokenizerFactory，创建org.apache.lucene.analysis.WhitespaceTokenizer，主要是切除所有空白字符。
solr.LowerCaseTokenizerFactory，创建org.apache.lucene.analysis.LowerCaseTokenizer，分词举例：“I can't”→“i”,“can”，“t”，主要是大写转小写。
solr.StandardTokenizerFactory，创建org.apache.lucene.analysis.standard.StandardTokenizer，分词举例："I.B.M cat's can't"→ACRONYM：“I.B.M”，APOSTROPHE：“cat's”，APOSTROPHE：“can't”，说明：该分词器会自动地给每个分词添加type，以便接下来的对type敏感的过滤器进行处理，目前仅仅只有StandardFilter对Token的类型是敏感的。
solr.HTMLStripWhitespaceTokenizerFactory，从结果中除去HTML标签，将结果交给WhitespaceTokenizer处理。例子：

my<a href = "www.foo.bar">link</a>
my link
<?xml?><br>hello
hello
hello<script><-- f('<--internal--></script>'); --></script>
hello
if a<b then print a;
if a<b then print a;
hello <td height=22 newrapalign = "left">
hello
a<b &#65 Alpha&OmegaΩ
a<b A Alpha&Omega Ω

solr.HTMLStripStandardTokenizerFactory，从结果中除去HTML标签，将结果交给StandardTokenizer处理。
solr.PatternTokenizerFactory，按照规则表达式样式对分本进行分词。例子：处理对象为mice；kittens；dogs，他们由分号加上一个或多个的空格分隔。

<fieldType name = "semicolonDelimited" class = "solr.TextField">
<analyzer>
<tokenizer class = "solr.PatternTokenizerFactory" pattern = ";*" />
</analyzer>
</fieldType>

Solr有哪些TokenFilterFactories？

solr.StandardFilterFactory，创建org.apache.lucene.analysis.standard.StandardFilter。移除首字母简写中的点和Token后面的's。仅仅作用于有类的Token，他们是由StandardToken产生的。例如："I.B.M. cat's can't"→“IBM”，“cat”，“cat't”。
solr.LowerCaseFilterFactory，创建org.apache.lucene.analysis.LowerCaseFilter。
solr.TrimFilterFactory【solr1.2】，创建org.apache.solr.analysis.TrimFilter，去掉Token两端的空白符，例："Kittens! ","Duck"→"Kittens!","Duck"。
solr.StopFilterFactory，创建org.apache.lucene.analysis.StopFilter，去掉如下的通用词，多为虚词。

"a","an","and","are","as","at","be","but","by","for","if","in","into","is","it","no","not","of","on","or","s","such","t","that","the","their","then","there","these","they","this","to","was","will","with"。
自定义的通用词表的使用可以通过schema.xml文件中的“words”属性来指定，如下。
<fieldType name = "teststop" class = "solr.TextField">
<analyzer>
<tokenizer class = "solr.LowerCaseTokenizerFactory" />
<filter class = "solr.StopFilterFactory" words = "stopwords.txt" ignoreCase = "true" />
</analyzer>
</fieldType>

solr.KeepWordFilterFactory【solr1.3】，创建org.apache.solr.analysis.KeepWordFilter，作用与solr.StopFilterFactory相反，保留词的列表也可以通过“word”属性进行指定。

<fieldType name = "testkeep" class = "solr.TextField">
<analyzer>
<filter class = "solr.KeepWordFilterFactory" words = "keepwords.txt" ignoreCase = "true" />
</analyzer>
</fieldtype>

solr.LengthFilterFactory，创建solr.LengthFilter，过滤掉长度在某个范围之外的词，范围设定方式见下面。

<fieldType name = "lengthfilt" class = "solr.TextField">
<analyzer>
<tokenizer class = "solr.WhitespaceTokenizerFactory" />
<filter class = "solr.LengthFilterFactory" min = "2" max = "5" />
</analyzer>
</fieldType>

solr.PorterStemFilterFactory，创建org.apache.lucene.analysis.PorterStemFilter，采用Porter Stemming Algorithm
算法去掉单词的后缀，例如将复数形式变成单数形式，第三人称动词变成第一人称，现在分词变成一般现在时的动词。
solr.EnglishPorterFilterFactory，创建solr.EnglishPorterFilter，关于句子主干的处理，其中的“protected”指定不允许修改的词的文件。
solr.SnowballPorterFilterFactory，关于不同语言的词干处理。
solr.WordDelimiterFilterFactory，关于分隔符的处理。
solr.SynonymFilterFactory，关于同义词的处理。
solr.RemoveDuplicatesTokenFilterFactory，避免重复处理。

阅读全文

0 0