Solr Request Handler, component, Filter
来源:互联网 发布:软件开发流程管理制度 编辑:程序博客网 时间:2024/04/30 21:41
http://blog.csdn.net/pelick/article/details/8502437
如何定制solr实现自己的搜索服务。
solr是一个可扩展的服务,我们可以添加自己的包和类,在solr已经实现的default处理逻辑之上,再添加我们自己的搜索逻辑。实现手段就是继承solr的基础类,重写或者改写新的Filter,Search Component以及Request Handler类,来取代solr默认的处理类或者与之并存。我也是读了源码,参考了默认类的实现过程,才找到了定制的方法,下面一一说明。
Request Handler
solrconfig.xml里,对/select设置的默认处理类是solr.SearchHandler
- <requestHandler name="/select" class="solr.SearchHandler">
- <lst name="defaults">
- <str name="echoParams">explicit</str>
- <int name="rows">10</int>
- <str name="df">usergoods_mix</str>
- </lst>
- </requestHandler>
- @Override
- public void handleRequestBody(SolrQueryRequest req, SolrQueryResponse rsp) throws Exception, ParseException, InstantiationException, IllegalAccessException
- {}
- protected List<SearchComponent> components = null;
- ResponseBuilder rb = new ResponseBuilder(req, rsp, components);
根据配置把各个search component该做的事都分配好,search component是真正读取处理SolrQueryRequest内的查询参数,往SolrQueryResponse里填写数据的地方。下面会再介绍search component的两个prepare()和process()函数。
定制Request Handler
默认的request handler直接得到你http里url带来的传参,然后就开始根据配置分发任务,让各自的component去处理查询请求了。定制request handler的好处是,在这个步骤之中,你可以再额外进行一些别的逻辑处理,比如你可以写写log,在得到SolrQueryRequest后,传入前查看处理一下里面的query,对SolrQueryResponse里得到的数据集再做些处理等等。定制方式是自己继承StandardRequestHandler类(该类继承了SearchHandler),- package myplugin.handler;
- import org.apache.solr.handler.StandardRequestHandler;
- import org.apache.solr.request.SolrQueryRequest;
- import org.apache.solr.response.SolrQueryResponse;
- public class MySearchHandler extends StandardRequestHandler {
- public void handleRequestBody(SolrQueryRequest request,
- SolrQueryResponse response) throws Exception {
- super.handleRequestBody(request, response);
- //TODO: whatever you want
- }
- }
- <requestHandler name="/test" class="myplugin.handler.MySearchHandler">
- <lst name="defaults">
- <str name="echoParams">explicit</str>
- <int name="rows">10</int>
- <str name="df">usergoods_mix</str>
- </lst>
- </requestHandler>
和SpellCheckerRequestHandler等等。大家可以自己看看源码,知道他们分别做什么。都在org.apache.solr.handler内。
Search Component
search component的意义远比handler重要的多。solr已经在solrconfig.xml给我们定制了几个默认的component
- <searchComponent name="query" class="solr.QueryComponent" />
- <searchComponent name="facet" class="solr.FacetComponent" />
- <searchComponent name="mlt" class="solr.MoreLikeThisComponent" />
- <searchComponent name="highlight" class="solr.HighlightComponent" />
- <searchComponent name="stats" class="solr.StatsComponent" />
- <searchComponent name="debug" class="solr.DebugComponent" />
拿QueryComponent举例子说明search component的重要性,最重要的两个函数是
- public class QueryComponent extends SearchComponent
- {
- public static final String COMPONENT_NAME = "query";
- public void prepare(ResponseBuilder rb) throws IOException{}
- public void process(ResponseBuilder rb) throws IOException {}
- // ...
- }
- public void process(ResponseBuilder rb) throws IOException
- {
- SolrQueryRequest req = rb.req;
- SolrQueryResponse rsp = rb.rsp;
- SolrParams params = req.getParams();
- if (!params.getBool(COMPONENT_NAME, true)) {
- return;
- }
- SolrIndexSearcher searcher = req.getSearcher();
- // ...
- DocListAndSet res = new DocListAndSet();
- res.docList = new DocSlice(0, docs, luceneIds, null, docs, 0);
- if (rb.isNeedDocSet()) {
- // TODO: create a cache for this!
- List<Query> queries = new ArrayList<Query>();
- queries.add(rb.getQuery());
- List<Query> filters = rb.getFilters();
- if (filters != null) queries.addAll(filters);
- res.docSet = searcher.getDocSet(queries);
- }
- rb.setResults(res);
- rsp.add("response",rb.getResults().docList);
对同一个request handler,可以按顺序配置多个search component,这些component会在handler类里各自得到自己的任务,把SolrQueryRequest和SolrQueryResponse传承下去,在这个过程中,我们可以加入自己的component,定制我们想要的搜索结果和搜索逻辑
定制search component
我简单把实现代码帖一下,主要还是通过继承基础类,最后配置到solrconfig.xml内。
- package myplugin.component;
- import java.io.IOException;
- import org.apache.solr.handler.component.ResponseBuilder;
- import org.apache.solr.handler.component.SearchComponent;
- public class MySearchComponent extends SearchComponent {
- String query = null;
- @Override
- public void prepare(ResponseBuilder rb) throws IOException {
- query = rb.req.getParams().get("q", "");
- System.out.println("prepare: " + query);
- }
- @Override
- public void process(ResponseBuilder rb) throws IOException {
- if (query != null) {
- <span style="white-space:pre"> </span>rb.rsp.add("mytest", "zbf"); // <str name="mytest">zbf</str>
- //SimpleOrderedMap map = (SimpleOrderedMap) builder.rsp.getValues();
- //DocList doclist = (DocList) map.get("response");
- // System.out.println("process: " + map.get("response").toString());
- // System.out.println("process: " + map.get("mytest").toString());
- }
- }
- @Override
- public String getDescription() {
- return "MySearchComponent";
- }
- @Override
- public String getSource() {
- return "";
- }
- @Override
- public String getSourceId() {
- return "";
- }
- @Override
- public String getVersion() {
- return "0.1";
- }
- }
- <requestHandler name="/test" class="myplugin.handler.MySearchHandler">
- <lst name="defaults">
- <str name="echoParams">explicit</str>
- <int name="rows">10</int>
- <str name="df">usergoods_mix</str>
- </lst>
- <arr name="components">
- <str>query</str>
- <str>myComponent</str>
- </arr>
- </requestHandler>
- <searchComponent name="myComponent" class="myplugin.component.MySearchComponent">
- </searchComponent>
先声明自己的searchComponent,然后放入handler里使用起来,注意配置顺序,因为component是按顺序串接起来的。
定制Filter
最后简单说下Filter,他的作用就是如果你自己定制了Filter,你就可以按自己的方式处理字符串。比如你的查询query里传来的是“field:如何 定制 搜索服务”,如果你直接交给solr的api去做那么"如何"使用的是field字段,但是空格之后的word都会归结到default field里,这是solr包装了lucene的接口之后的结果,可能刚开始在组装自己的查询url的时候会不太适应,所以如果你定制一个自己的filter,就可以解决这样的问题。
定制Filter要继承两个类。其实在配置IKAnalyzer的时候大家可以看到
- <fieldType name="text_ik" class="solr.TextField">
- <analyzer type="index">
- <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/>
- <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
- <filter class="solr.LowerCaseFilterFactory"/>
- </analyzer>
- <analyzer type="query">
- <!-- 同上 -->
- </analyzer>
- </fieldType>
- package pl.solr;
- import java.io.IOException;
- import org.apache.lucene.analysis.TokenFilter;
- import org.apache.lucene.analysis.TokenStream;
- import org.apache.lucene.analysis.tokenattributes.TermAttribute;
- public class ExampleFilter extends TokenFilter {
- private final TermAttribute termAttr = (TermAttribute)
- addAttribute(TermAttribute.class);
- public ExampleFilter(TokenStream stream) {
- super(stream);
- }
- @Override
- public boolean incrementToken() throws IOException {
- if (input.incrementToken()) {
- String term = termAttr.term();
- if (term.length() <= 1) {
- return true;
- }
- StringBuffer buffer = new StringBuffer();
- buffer.append(term.charAt(1)).append(term.charAt(0)).
- append(term.substring(2));
- termAttr.setTermBuffer(buffer.toString());
- termAttr.setTermLength(buffer.length());
- return true;
- }
- return false;
- }
- }
- package pl.solr;
- import org.apache.lucene.analysis.TokenStream;
- import org.apache.solr.analysis.BaseTokenFilterFactory;
- public class ExampleFilterFactory extends BaseTokenFilterFactory {
- @Override
- public TokenStream create(TokenStream stream) {
- return new ExampleFilter(stream);
- }
- }
- <fieldtype name="exampleType" stored="true" indexed="true"
- class="solr.TextField" >
- <analyzer>
- <tokenizer class="solr.WhitespaceTokenizerFactory" />
- <filter class="pl.solr.ExampleFilterFactory" />
- </analyzer>
- </fieldtype>
总结
前几天我也不知道solr的这几个玩法,把solr给小看了。其实solr是一个高可扩展的东西,你要实现自己的搜索服务,就继承solr的基本类,增加自己的扩展类到solr的配置文件里,可以取代solr的默认处理类,也可以和solr的类共同处理。所以以上说的request handler,search component以及filter给我们实现了很好的扩展方式,用起来比较像SOA的架构,像OSGi里的各部分组件。之后如果对solr有更深的理解或者解读,会再做分享。
- Solr Request Handler, component, Filter
- Request Filter
- Solr Filter过滤器介绍
- Solr Filter过滤器介绍
- Solr data import handler
- solr 自定义Handler
- Solr 数据导入Handler
- Solr Search Request Handling
- request&response&listenner&filter
- filter修改request参数
- Data Import Request Handler
- SolrJ、Request Handler
- solr filter query的误用
- Solr -- query和filter query
- Dubbo源码分析 Handler & Filter
- Servlet、Request、Response、filter、listener
- dubbox ExceptionMapper Filter request response
- webx- Filter, Request Contexts, Pipeline
- 如何招聘好的员工--随想
- HTML5之表单详解
- 深入了解 CSS3 新特性
- 28个你必须知道的HTML5的新特性,技巧以及技术
- COM第八章
- Solr Request Handler, component, Filter
- fpga experialment share
- 布泉更望湖边 赶歌圩 赏花海
- 免费是移动互联网的第一思维
- tranceform downpanel for empty pcb
- when i change PCB footprint ,all become green warn!
- ACE相关学习文章
- 湖北原副省长郭有明被开党籍:收受贿赂道德败坏
- linux 多线程 遇到的问题