solr 基础架构

来源:互联网 发布:纽约大学gpa算法 编辑:程序博客网 时间:2024/05/01 04:38
本节通过建一个基础应用来说明solr的主要核心模块,当然这个过程中我们也能够看出solr的特别之处和solr存在的意义。首先在说明solr是什么之前,我们先撇清一些概念---------solr既不是搜索引擎也不是搜索引擎优化。 上面的图片能够展示一部分solr的核心功能,solr可以童工强大的关键字搜索和一些复杂的高级搜索,另外solr还提供相应的拼写检查,自动匹配或者是建议,同义词处理,短语查询、文本分析工具来应对查询方面的需求多样性。另外solr提供了强大的地理空间查询,例如通过经纬度坐标来查找距离范围内的周围的房屋。另外强大的地理空间查询功能对于快速在地图上扩大和缩小等也是极为有用的。另外solr可以对查询的结果进行进一步的分类。 事实上,solr是在lucene的基础上发展起来的,而lucence的职责就是对文档构建索引并且搜索找出符合条件的文档的基础框架。 上图基本上能够给一个lucence工作原理的一个实例。上图也可以给出一个感性的关于数据库查询和lucene的不同之处,lucene返回的结果主要是通过了相关度排序而数据库返回的结果主要是通过了某一个列的排序。 lucene提供了一整套索引文档和执行查询的机制,它配置机制,通过配置决定什么字段被索引。然而lucene需要通过写java程序来定义索引字段和如何解析这些字段,然后solr在lucene基础上做了改善,用户只需要通过schema.xml文件来定义你的索引结构,solr负责将schema.xml文件进行翻译,然后转换成lucene索引。 另外solr在lucene基础上增加了一些不错的功能,例如说solr提供了一些动态域和一些复制域。 复制域:通过复制,就可以 把所有字段放在一起,这样搜索的时候就可以不用很复杂的查询组合就可以在所有字段中搜索。 动态域字段的定义没有在配置中找到,就在动态字段类型中进行查找。 通过上述的讲解,我们已经知道了solr提供了请打的索引文档、执行查询和结果排序,并且利用schema.xml我们可以灵活的定语所以结构。那么我们在web应用中如何能够快速使用呢?下面我们会详细介绍solr这个web 应用时怎么工作的且它是如何整合其他的技术例如xml json、http等。 为了更好的整合,solr核心的服务需要支持多语言,因此solr实际上支持了类似rest web service的方式,并且以标准的xml、json、http服务进行数据传输。这里所说的类似于rest web service是因为solr并没有完全严格的按照rest原则,例如你可以用POST方式删除document而不是用HTTP delete请求的方式去删除文档。 多数的程序员习惯于自己熟悉的语言去开发应用程序,还好solr支持的语言种类较多,其中包括了主流语言:python ruby java php。

  Multiple indexes in one server

  现在应用软件体系结构重要的一个特征是灵活性比较好,而solr也具备了次良好的特性。一个solr实例里面可以运行着多个索引和配置管理器等,因此我们需要共享服务器资源和管理任务(例如监控和维护任务)。solr多核支持的用途之一就是数据分区(按时间分片)solr多核支持的另一个用途就是支持多租户应用

  可扩展性和可伸缩性

   扩展性方面:solr有3大业务子系统:文档管理系统、查询处理系统和文本分析系统,且三个子系统都高度抽象。每一个系统都是一个管道模块,
每个模块像插件一样可以替换。

   可伸缩性:最开始solr提供了一个灵活的cache 管理以减少重复计算的开销,另外查询吞吐量,为了获得高的查询吞吐量,我们需要对每一个索引建立多个副本。另外一个索引文档的数量,为了索引更多的文档,需要将索引进行切片。


  但是值得注意的是solrCloud不能搭建在云计算环境,例如说:Amazon EC2


        
原创粉丝点击