Solr6.3 Getting Started managed-schema配置介绍

来源:互联网 发布:matlab怎样优化伯德图 编辑:程序博客网 时间:2024/05/11 18:06

Tips:managed-schema文件在哪里?SolrCore中都包含哪些文件?详见Solr6.3 Getting Started Solr6.3 Add Core 添加Core

managed-schema是用来定义索引数据中的域,包括域名称,域类型,域是否索引,是否分词,是否存储,是否标准化即Norms,是否存储项向量等等。

managed-schema配置文件的根元素是schema,有name属性,name属性值可以任意配置;

schema元素下主要有两个标签元素即field和fieldType,其中field用来定义域、fieldType用来定义域类型。

managed-schema文件的注释中有如下说明:


这个managed-schema文件应该被命名为schema.xml文件,并且放在solr home目录下的conf文件夹;

在Solr5版本的conf文件夹中是直接schema.xml文件。

1.field标签元素

          name: 表示域的名称,是强制必须有的属性;
          type: 域类型的名称,与fieldType元素的name属性值对应,也是强制必须有的属性,不可省略;
          required: 表示这个域是否是必须要在document中存在,默认值为false,如果此配置项设为true,则你的document中必须要添加此域,否则你创建索引时会抛异常,例如:Document is missing mandatory field:xxx之类的异常,由于lucene的索引结构是扁平化的,所以一般除了id主键域你可以设置为唯一域,其他域required建议保持默认值false即可;
          indexed: true即表示需要对该域进行索引,一般如果你需要在该域上进行查询或排序时,则需要配置为true,默认值为false;
          stored: 表示是否需要把域值存储到硬盘上,方便你后续查询时能再次提取出来原样显示给用户;
          docValues: 表示此域是否需要添加一个docValues域,这对facet查询,group分组,排序,function查询有好处,尽管这个属性不是必须的,但他能加快索引数据加载,对NRT近实时搜索比较友好,且更节省内存,但它也有一些限制,比如当前docValues域只支持strField,UUIDField,Trie*Field等域,且要求域的域值是单值不能是多值域;
          multiValued: 表示这个域是否可以存储多个值,若设置为true,即表示这是一个多值域;
          omitNorms: 此属性若设置为true,即表示将忽略域值的长度标准化,忽略在索引过程中对当前域的权重设置,且会节省内存。只有全文本域或者你需要在索引创建过程中设置域的权重时才需要把这个值设为false,对于基本数据类型且不分词的域如intFeild,longField,StrField等默认此属性值就是true,否则默认就是false;
          termVectors: 设置为true即表示需要为该field存储项向量信息,当你需要MoreLikeThis功能时,则需要将此属性值设为true,这样会带来一些性能提升;
          termPositions: 是否存储Term的起始位置信息,这会增大索引的体积,但高亮功能需要依赖此项设置,否则无法高亮;
          termOffsets: 表示是否存储索引的位置偏移量,高亮功能需要此项配置,当你使用SpanQuery时,此项配置会影响匹配的结果集;
          field里还有两个比较难理解的域,是Solr扩展的,在Lucene中没有的概念。

          dynamicField动态域:动态域的属性配置跟普通的field差不多就不多,唯一有点区别就是name的属性值,可以用通配符,这样就可以模糊匹配多个域啦,这样设计的目的就是不用频繁的去修改我们的managed-schema中的field配置去增加field域啦,比如之前有个link_s域,某一天你想再增加一个url_s域,那你就需要去修改managed-schema配置文件,由于managed-schema修改过后需要重启Jetty才能生效,重启即意味着程序的中断,这往往是不可接受的。所以引入动态域来避免频繁添加修改域,但前提是你的域需要符合你提前定义的动态域的域名称命名规则


          copyField复制域表示把某个域的值复制到一个目标域上面,那如果把多个域的值复制到一个目标域上面呢,你可以进行多次复制,体现到XML配置上就是类似这样的配置:
<copyField source="title" dest="text"/>
<copyField source="body" dest="text"/>

如上配置就表示把title和body这两个域的值全部复制到text这个新域上面,唯一要注意的是,如果你只是复制单个域,那么如果你被复制域本身就是多值域,那么目标域也是多值域,这毋庸置疑,那如果你复制的是多个域,只要其中有一个域是多值域,那么目标域就一定是多值域。

2.fieldType标签元素----定义域类型


          对于fieldType的标签重点关注标签内class的内容。solr中包含的域类型有StrField,BoolField,TrieIntField,TrieFloatField,TrieLongField,TrieDoubleField,TrieDateField,BinaryField,RandomSortField,TextField等。下面依次进行说明:
          StrField:这是一个不分词的字符串域,它支持docValues域,但当为其添加了docValues域,则要求只能是单值域且该域必须存在或者该域有默认值
          BoolField:boolean域,对应true/false
          TrieIntField, TrieFloatField, TrieLongField, TrieDoubleField这几个都是默认的数字域,precisionStep属性一般用于数字范围查询,precisionStep值越小,则索引时该域的域值分出的token个数越多,会增大硬盘上索引的体积,但它会加快数字范围检索的响应速度,positionIncrementGap属性表示如果当前域是多值域时,多个值之间的间距,单值域,设置此项无意义。
          TrieDateField:日期域类型,它支持1995-12-31T23:59:59Z这种格式的日期。
          BinaryField:经过base64编码的字符串域类型,即你需要把binary数据进行base64编码才能被solr进行索引。
          RandomSortField:随机排序域类型,当你需要实现伪随机排序时,请使用此域类型。
          TextField:是用的最多的一种域类型,它需要进行分词,所以它一般需要配置分词器

         sortMissingLast:表示如果域值为null,在根据当前域进行排序时,把包含null值的document排在最后一位,
          sortMissingFirst:与sortMissingLast对应。
          docValues:表示是否为docValues域,一般排序,group,facet时会用到docValues域。

uniqueKey


uniqueKey元素用来配置document的唯一标识域,即solr是用此域来决定增量导入时是否重复导入,如果id一样,则不会重复导入,或者当你更新索引时,你可以根据指定的uniqueKey域,来确定一个document,然后对该document进行更新。总之,它是用来唯一确定一个document的,跟数据库表里的主键id概念类似,前提是你uniqueKey里配置的域名称你需要提前使用field元素进行定义。


1 0