solr搭建企业搜索平台，配置文件

来源：互联网发布：网络销售是什么工作编辑：程序博客网时间：2024/05/21 06:29

原文：http://blog.csdn.net/xiaozhengdong/article/details/7035914

本文的前提条件是，你已经完成了第一节，将solr搭建起来了。

solr版本solr 3.1

solr有几个配置文件是最重要的。solr.xml，solrconfig.xml，schema.xml，db-data-config.xml

如果你不使用solr自带的更新索引的功能，想用solrj编程来实现索引更新，那么我可以告诉你db-data-config.xml文件没什么用，一个一个来介绍下这几个配置文件吧。

看了网上很多大神的blog，然后自己开发经验之后发现这些配置文件都是蛮好理解的。

1. solr.xml配置例子：

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
< solr sharedLib="lib" persistent="true">
    <cores adminPath="/admin/cores">
        <core default="true" instanceDir="db" name="db"/>
        <core default="false" instanceDir="mail" name="mail"/>
        <core default="false" instanceDir="tika" name="tika"/>
    </cores>
< /solr>

告诉搜索引擎，db这个文件夹下的配置文件是可用的配置。

2.solrconfig.xml 配置例子

这个配置文件的东西就多了。先配置最简单的一个也是必须配置的一个。以后祥谈。

3.db-data-config.xml，即相当于索引对应的数据库是什么，数据库表是什么。

这个是依你的实际情况来看的。

4.schema.xml 配置文件

主要是告诉搜索引擎建索引的时候哪些字段需要分词，哪些字段是什么类型。使用什么分词器，等等

<fields>
   

   <field name="id" type="string" indexed="true" stored="true" required="true" />
   <field name="sku" type="textTight" indexed="true" stored="true" omitNorms="true"/>
< !--   <field name="name" type="textgen" indexed="true" stored="true"/>-->
   <field name="alphaNameSort" type="alphaOnlySort" indexed="true" stored="false"/>
   <field name="manu" type="textgen" indexed="true" stored="true" omitNorms="true"/>
   <field name="cat" type="string" indexed="true" stored="true" multiValued="true"/>
   <field name="features" type="text" indexed="true" stored="true" multiValued="true"/>
   <field name="includes" type="text" indexed="true" stored="true" termVectors="true" termPositions="true" termOffsets="true" />

   <field name="weight" type="float" indexed="true" stored="true"/>

   <field name="popularity" type="int" indexed="true" stored="true" />
   <field name="inStock" type="boolean" indexed="true" stored="true" />

   
   <field name="store" type="location" indexed="true" stored="true"/>

   
< !--   <field name="title" type="text" indexed="true" stored="true" multiValued="true"/>-->
   <field name="subject" type="text" indexed="true" stored="true"/>
   <field name="description" type="text" indexed="true" stored="true"/>
   <field name="comments" type="text" indexed="true" stored="true"/>
   <field name="author" type="textgen" indexed="true" stored="true"/>
   <field name="keywords" type="textgen" indexed="true" stored="true"/>
< !--   <field name="category" type="textgen" indexed="true" stored="true"/>-->
   <field name="content_type" type="string" indexed="true" stored="true" multiValued="true"/>
   <field name="last_modified" type="date" indexed="true" stored="true"/>
   <field name="links" type="string" indexed="true" stored="true" multiValued="true"/>

   
   <field name="text" type="text" indexed="true" stored="false" multiValued="true"/>

   
   <field name="text_rev" type="text_rev" indexed="true" stored="false" multiValued="true"/>

   
   <field name="manu_exact" type="string" indexed="true" stored="false"/>

   <field name="payloads" type="payloads" indexed="true" stored="true"/>

   
   


   
   <dynamicField name="*_i" type="int"    indexed="true" stored="true"/>
   <dynamicField name="*_s" type="string" indexed="true" stored="true"/>
   <dynamicField name="*_l" type="long"   indexed="true" stored="true"/>
   <dynamicField name="*_t" type="text"    indexed="true" stored="true"/>
   <dynamicField name="*_txt" type="text"    indexed="true" stored="true" multiValued="true"/>
   <dynamicField name="*_b" type="boolean" indexed="true" stored="true"/>
   <dynamicField name="*_f" type="float" indexed="true" stored="true"/>
   <dynamicField name="*_d" type="double" indexed="true" stored="true"/>

   
   <dynamicField name="*_coordinate" type="tdouble" indexed="true" stored="false"/>

   <dynamicField name="*_dt" type="date"    indexed="true" stored="true"/>
   <dynamicField name="*_p" type="location" indexed="true" stored="true"/>

   
   <dynamicField name="*_ti" type="tint"    indexed="true" stored="true"/>
   <dynamicField name="*_tl" type="tlong"   indexed="true" stored="true"/>
   <dynamicField name="*_tf" type="tfloat" indexed="true" stored="true"/>
   <dynamicField name="*_td" type="tdouble" indexed="true" stored="true"/>
   <dynamicField name="*_tdt" type="tdate" indexed="true" stored="true"/>

   <dynamicField name="*_pi" type="pint"    indexed="true" stored="true"/>

   <dynamicField name="ignored_*" type="ignored" multiValued="true"/>
   <dynamicField name="attr_*" type="textgen" indexed="true" stored="true" multiValued="true"/>

   <dynamicField name="random_*" type="random" />

</fields>

后面专门再写一下solrconfig和schema.xml的详细配置。这里先只谈一下他们各自的作用。

solr3.1版本，solr3.x版本大部分应该一致。

一个一个的配置项来谈谈schema.xml 配置：

以下是针对schema.xml 配置文件的剖析：

1. <types></types>这个标签和它的意义一样，是用来表示数据有哪些类型，这些类型当然是solr内部定义的类型和自定义类型。

2.

和他上面解释一样，string类型是不分词的，要建索引，要存储

3.数值类型，有如下几个类型是默认数值类型，如果想用于排序请用 tint/tfloat/tlong/tdouble类型

<fieldType name="int" class="solr.TrieIntField" precisionStep="0" omitNorms="true" positionIncrementGap="0"/>
    <fieldType name="float" class="solr.TrieFloatField" precisionStep="0" omitNorms="true" positionIncrementGap="0"/>
    <fieldType name="long" class="solr.TrieLongField" precisionStep="0" omitNorms="true" positionIncrementGap="0"/>

4.时间类型：如果想用于快速排序查询，用tdate（看到这里我的排序没用tdate，得改啊。。）

Note: For faster range queries, consider the tdate type

5.专门用于分词的字段。在里面包含了定义使用什么分词器，可以手工定制。

<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"/>
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
        <filter class="solr.StopFilterFactory"
                ignoreCase="true"
                words="stopwords.txt"
                enablePositionIncrements="true"
                />
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
        <filter class="solr.PorterStemFilterFactory"/>
      </analyzer>

其他几个类别都是不常用的，也是通过分词器来定义不同的类别。和第五个类似。

6.索引字段名称定义。

id：是索引字段的唯一标识。

termVectors="true"属性主要用于相关搜索。

multiValued="true"属性，一般用于多个字段组成一个字段的情况。

一般用于查询的字段定义为multiValued。

7. <dynamicField name="*_i" type="int" indexed="true" stored="true"/>表示动态字段，暂时没用到。

0 0