solr功能

来源:互联网 发布:最全的网络投资产品 编辑:程序博客网 时间:2024/04/30 12:22
http://lucene.apache.org/solr/


##Solr Features##
Solr是一个提供类似REST的API的独立的企业级检索服务器。你可以通过XML、JSON、CVS或者HTTP的二进制来存储文档(或者称为索引)。你可以通过HTTP GET方法查询并且接受XML、JSON、CVS或者二进制数据。
+ 先进的全文检索功能
+ 为高吞量的网略流量进行优化
+ 基于开放接口标准-XML、JSON和HTTP
+ 全面的HTML管理接口
+ 服务器统计信息暴露,可以通过JMX来监控
+ 线性可扩展,自动索引复制,自动故障转移和恢复
+ 近乎实时索引
+ 基于XML配置的灵活性和适应性
+ 可扩展的插件架构


###Solr使用Lucene检索库并扩展它###
+ 一个真实的数据模式,包括数字类型、动态字段、唯一键
+ 对Lucene查询语言强大的扩展功能
+ 方面检索和过滤
+ 支持每个文档中多点和地理多边形的地理空间检索
+ 先进的,可配置的文本分析器
+ 高度可配置性和用户可扩展缓存
+ 性能优化
+ 基于XML的可扩展配置
+ 基于AJAX的管理接口
+ 可监视的日志
+ 快速接近实时的增量索引和索引复制
+ 基于跨多个主机的索引分片的高度可扩展的分布式检索
+ JSON、XML、CVS/delimited-text,和二进制更新格式
+ 简单的方式拉取数据,从数据库、本地磁盘上的XML文件,或者HTTP资源
+ 使用Apache Tika来解析和索引富文本(PDF、Word、HTML等)
+ 基于Apache UIMA集成配置的元数据提取
+ 多检索索引




##Schema##
+ 定义文档字段并指定字段类型
+ 可以驱动更智能的处理
+ 申明lucene 分词器
+ 动态字段是能够即时的添加新的字段
+ 字段复制功能允许索引单个字段多种方式,或多个字段合并成一个单一的搜索领域
+ 显式类型,排序了猜测字段类型的必要
+ 基于扩展(外部文件)文件的配置停用词列表、同义词列表、保护词列表
+ 许多额外的文本分析组件,包括单词分割,正则表达式和sounds-like过滤器
+ 每个字段都有可插拔的类似模型


####Query####
+ HTTP接口提供可配置的响应格式(XML/XSLT、JSON、Python、Ruby、PHP、Velocity、CSV、二进制)
+ 可通过任意数量的字段或者对于任意数量字段的复杂函数来排序
+ 高级的DisMax查询分析器从用户输入的查询中获得高度相关的结果
+ 高亮上下文片段
+ 基于唯一字段值、明确的查询、日期范围、数字范围或者点的方面检索
+ 通过标签或者可选择的执行过滤来实现多方面检索
+ 对用户查询进行拼写建议
+ 给定文档的相似性建议
+ 函数查询-影响用户指定复杂的数值字段或查询相关度分值函数的得分
+ 通过函数查询对结果范围进行过滤
+ Range filter over Function Query results
+ Date Math - specify dates relative to "NOW" in queries and updates
+ 通过carrot2进行动态检索结果聚类
+ 数字字段统计,如最小值,最大值,平均值,标准偏差
+ Combine queries derived from different syntaxes
+ 自动建议功能完成用户查询
+ 允许配置一个查询的最优先的结果,这些结果可以覆盖正常的得分和排序
+ 简单连接两个文档类型功能
+ 性能优化


####Core####
+ 动态的创建或者删除文档集合而不用重启服务
+ 可插拔的查询处理器和可扩展的XML数据格式
+ 可插拔的用户函数供函数查询
+ 可定制的基于组建的请求处理器并且支持分布式检索
+ 基于unique key 字段的文档唯一性加强
+ 重复文件检测,包括 fuzzy near duplicates
+ 可定制的索引处理链,允许索引前对文档处理
+ User configurable commands triggered on index changes
+ Ability to control where docs with the sort field missing will be placed
+ "Luke" request handler for corpus information


####SolrCloud####
+ 基于Apache ZooKeeper 的集中式的配置
+ 自动分布式索引/分片,发送文档到任意节点并且文档会被转发到正确的分片
+ 基于立即推模型(同时也支持缓慢拉模型复制)复制的近实时索引
+ 事务日志确保即使更新文档没有索引到磁盘也不会丢失
+ 如果失败时的自动索引故障转移、索引leader选举和故障恢复
+ 无单点故障


####Admin Interface####
+ 对于缓存利用、更新和查询的综合统计
+ 包括索引统计的交互模式浏览
+ 复制监控
+ 图形化集群节点状态的SolrCloud仪表盘
+ 全日志控制
+ 文本分析调试,显示一个分析器每个阶段的分析结果
+ Web查询接口,w/ 调式输出
+ 解析的查询输出
+ 基于Lecene explain()的文档得分详细设计
+ Explain score for documents outside of the requested range to debug why a given document wasn't ranked highe
0 0
原创粉丝点击