Solr分词器、过滤器、分析器。

来源:互联网 发布:不备案的域名给解析吗 编辑:程序博客网 时间:2024/06/05 14:36

        对一个document进行索引时,其中的每个field中的数据都会经历分析(分析就是组合分词和过滤),最终将一句话分成单个的单词,去掉句子当中的空白符号,大写转换小写,复数转单数,去掉多余的词,进行同义词代换等等。

        如:This is a blog! this,is,a会被去除,最后剩下blog。当然 ! 这个符号也会被去除的。

        这个过程是在索引和查询过程中都会进行的,而且通常两者进行的处理的都是一样的,这样做是为了保证建立的索引和查询的正确匹配。

       分析器(Analyzer)是包含两个部分:分词器和过滤器。分词器功能将句子分成单个的词元token,过滤器就是对词元进行过滤。

       solr自带了一些分词器,如果你需要使用自定义的分词器,那么就需要修改schema.xml文件。

       schema.xml文件允许两种方式修改文本被分析的方式,通常只有field类型为solr.TextField的field的内容允许定制分析器。

       方法一:使用任何org.apache.lucene.analysis.Analyzer的子类进行设定。

       <fieldType name = "text" class = "solr.TextField">

             <analyzer class = "org.wltea.analyzer.lucene.IKAnalyzer" />

       </fieldType>

       方法二:指定一个TokenizerFactory,后面跟一系列的TokenFilterFactories(他们将按照所列的顺序发生作用),Factories被用来创建分词器和分词过滤器,他们用于对分词器和分词过滤器的准备配置,这样做的目的是为了避免通过反射创造的开销。

        <analyzer type = "index">

               <tokenizer class= "org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength = "false" />

               ......

        </analyzer>

        <analyzer type = "query">

               <tokenizer class = "org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength = "true" />

               .......

        </analyzer>

        需要说明的一点是,一些 Analyzer,TokenizerFactory 或者 TokenFilterFactory应该用带包名的全类名进行指定,请确保他们位于Solr的classpath路径下。对于org.apache.solr.analysis.*包下的类,仅仅通过solr.*就可以进行指定。

        如果你需要使用自己的分词器和过滤器,你就需要自己写一个factory,他必须是BaseTokenizerFactory(分词器)或BaseTokenFilterFactory(过滤器)的子类。就像下面一样。

public class MyFilterFactory extends BaseTokenFilterFactory {

public TokenStream create(TokenStream input) {

return new MyFilter(input);

}

}

        对于IK3.1.5版本已经完全支持了solr的分词,这样就不用自己来编写了,而对于中文的切词的话,IK对solr的支持已经很完美了。

Solr提供了哪些TokenizerFactories?

  • solr.LetterTokenizerFactory,创建org.apache.lucene.analysis.LetterTokenizer。分词举例:“I can't”→“I”,“can”,“t”,字母切词。
  • solr.WhitespaceTokenizerFactory,创建org.apache.lucene.analysis.WhitespaceTokenizer,主要是切除所有空白字符。
  • solr.LowerCaseTokenizerFactory,创建org.apache.lucene.analysis.LowerCaseTokenizer,分词举例:“I can't”→“i”,“can”,“t”,主要是大写转小写。
  • solr.StandardTokenizerFactory,创建org.apache.lucene.analysis.standard.StandardTokenizer,分词举例:"I.B.M cat's can't"→ACRONYM:“I.B.M”,APOSTROPHE:“cat's”,APOSTROPHE:“can't”,说明:该分词器会自动地给每个分词添加type,以便接下来的对type敏感的过滤器进行处理,目前仅仅只有StandardFilter对Token的类型是敏感的。
  • solr.HTMLStripWhitespaceTokenizerFactory,从结果中除去HTML标签,将结果交给WhitespaceTokenizer处理。例子:

my<a href = "www.foo.bar">link</a>

my link

<?xml?><br>hello<!-- comment -->

hello

hello<script><-- f('<--internal--></script>'); --></script>

hello

if a<b then print a;

if a<b then print a;

hello <td height=22 newrapalign = "left">

hello

a&lt;b &#65 Alpha&Omega&Omega;

a<b A Alpha&Omega Ω

  • solr.HTMLStripStandardTokenizerFactory,从结果中除去HTML标签,将结果交给StandardTokenizer处理。
  • solr.PatternTokenizerFactory,按照规则表达式样式对分本进行分词。例子:处理对象为mice;kittens;dogs,他们由分号加上一个或多个的空格分隔。

<fieldType name = "semicolonDelimited" class = "solr.TextField">

<analyzer>

<tokenizer class = "solr.PatternTokenizerFactory" pattern = ";*" />

</analyzer>

</fieldType>

Solr有哪些TokenFilterFactories?

  • solr.StandardFilterFactory,创建org.apache.lucene.analysis.standard.StandardFilter。移除首字母简写中的点和Token后面的's。仅仅作用于有类的Token,他们是由StandardToken产生的。例如:"I.B.M. cat's can't"→“IBM”,“cat”,“cat't”。
  • solr.LowerCaseFilterFactory,创建org.apache.lucene.analysis.LowerCaseFilter。
  • solr.TrimFilterFactory【solr1.2】,创建org.apache.solr.analysis.TrimFilter,去掉Token两端的空白符,例:"Kittens! ","Duck"→"Kittens!","Duck"。
  • solr.StopFilterFactory,创建org.apache.lucene.analysis.StopFilter,去掉如下的通用词,多为虚词。

"a","an","and","are","as","at","be","but","by","for","if","in","into","is","it","no","not","of","on","or","s","such","t","that","the","their","then","there","these","they","this","to","was","will","with"。

自定义的通用词表的使用可以通过schema.xml文件中的“words”属性来指定,如下。

<fieldType name = "teststop" class = "solr.TextField">

<analyzer>

<tokenizer class = "solr.LowerCaseTokenizerFactory" />

<filter class = "solr.StopFilterFactory" words = "stopwords.txt" ignoreCase = "true" />

</analyzer>

</fieldType>

  • solr.KeepWordFilterFactory【solr1.3】,创建org.apache.solr.analysis.KeepWordFilter,作用与solr.StopFilterFactory相反,保留词的列表也可以通过“word”属性进行指定。

<fieldType name = "testkeep" class = "solr.TextField">

<analyzer>

<filter class = "solr.KeepWordFilterFactory" words = "keepwords.txt" ignoreCase = "true" />

</analyzer>

</fieldtype>

  • solr.LengthFilterFactory,创建solr.LengthFilter,过滤掉长度在某个范围之外的词,范围设定方式见下面。

<fieldType name = "lengthfilt" class = "solr.TextField">

<analyzer>

<tokenizer class = "solr.WhitespaceTokenizerFactory" />

<filter class = "solr.LengthFilterFactory" min = "2" max = "5" />

</analyzer>

</fieldType>

  • solr.PorterStemFilterFactory,创建org.apache.lucene.analysis.PorterStemFilter,采用Porter Stemming Algorithm
    算法去掉单词的后缀,例如将复数形式变成单数形式,第三人称动词变成第一人称,现在分词变成一般现在时的动词。
  • solr.EnglishPorterFilterFactory,创建solr.EnglishPorterFilter,关于句子主干的处理,其中的“protected”指定不允许修改的词的文件。
  • solr.SnowballPorterFilterFactory,关于不同语言的词干处理。
  • solr.WordDelimiterFilterFactory,关于分隔符的处理。
  • solr.SynonymFilterFactory,关于同义词的处理。
  • solr.RemoveDuplicatesTokenFilterFactory,避免重复处理。