搜索平台要求

来源:互联网 发布:医学类搜题软件 编辑:程序博客网 时间:2024/04/19 11:26

1、      信息采集

n  同一个引擎支持多个数据源的索引和搜索

n  支持对多种文件系统的非结构化数据采集

n  支持对数据库系统的结构化数据采集

n  支持多种文档类型的信息采集(必须支持HTML/WORD/PPT/Excel/Text/PDF等常用文档的信息采集)

n  对内容增量的索引更新

n  采集类型、内容的配置管理的能力

n    Jpg, Tiff(凭证中需要识别的文字部分) 视频、音频(会议等内容)

2、      文档分类

n    提供多种方式对文档中的实体(如人名 ,机构名称,金融产品等)进行自动提取和处理

n    支持对文档进行按规则自动分类

n    可使用由用户按需要开发的文档处理模块

n    用户可以自定义分词字典

n    基于文档元数据的分类

n    支持搜索结果的分类导航

3、      搜索功能

n  各数据源检索结果统一排序

n  搜索条件的自动提示功能

n  搜索结果页面底部的相关搜索提示,模糊搜索,同音词,前后鼻音等的提示(模糊匹配字典库自动更新、可定义)

n  检索词高亮和关键字直达

n  支持热门搜索提示(规则可定制)

n  支持个性化搜索:提供搜索条件的保存和分享(分享规则可全局定义,个人主动分享)

n  支持基于同义词,拼音的扩展搜索功能(同义字典库可定义)

n  支持搜索的应用系统范围限定

n  搜索结果支持多重排序(按相关度、时间等多个条件进行排名)

n  支持多种类型的条件查询模式,通配符支持

n  支持精确搜索

n  支持对基于搜索结果的再搜索和结果筛选

n  支持从全文到元数据的多方位联合搜索(联合搜索)

n  支持搜索结果风格的定制和自定义封装

n  基于标准、开放的系统;提供开发接口,和常用模块组件;支持二次开发。(CM平台无权限控制,CM的内容在前端应用中进行权限控制,所以企业搜索平台需要对搜索内容进行区分,在CM中的内容需要为前端应用提供搜索服务,并让前端应用可以根据搜索结果结合前端的权限控制进行展现)

4、      安全方面

n  支持基于应用授权模型的文档级安全搜索,支持带有权限的搜索(对用户、资源、权限分级管理和控制)

n  全局控制--关键词过滤

5、      管理功能

n  可提供搜索情况的分析报表

n  运行监控

6、      集成和客户化支持

n  提供搜索端接口和样本应用,支持JAVAWEBSERVICE.Net

 

一、 性能要求

1、         50个并发搜索的响应时间小于2秒;

2、         检索完整性比率要到达99%以上(查全率),对多元化资源的准确定位(查准率);

对资源分布式和引擎分布式的支持(分布式搜索);

原创粉丝点击