行业门户搜索引擎方案
来源:互联网 发布:js 小数转整数 编辑:程序博客网 时间:2024/05/16 15:59
案背景:
网站站内搜索引擎逐渐称为网站不可缺少的组成部分,同时也成为网站地位的象征。然而,随着网络的发展,组织和组织之间的关系越来越紧密,简单的站内搜索引擎已经不能满足网站的需求。特别是对于政府机构网站、行业门户网站等,除了在网站内部有自己的搜索引擎以外,还需要对于下属机构或兄弟机构的网站实现统一搜索。
因此,门户搜索成为了一个重要的组成部分。目前门户搜索主要需要满足以下功能:
1. 可以指定的多个网站(非本网站),并对这些网站进行搜索。
2. 可以任意的增加或者删除网站的列表。
3. 实现关键词搜索、各种逻辑搜索。
4. 需要信息同步。即外部网站一旦更新,在本网查找的那些信息也要更新。
5. 搜索结果中不能有大量的重复信息。
6. 可以按照相关度或者时间排序。
7. 可以在所有网站中统一搜索,也可以在单个网站搜索。
8. 搜索结果的链接应该返回原网站,避免版权问题。
海量科技利用在检索领域多年的经验,根据海量的自动语意消重技术和网页抓取技术,以全文检索服务为核心,设计出一套行业门户搜索引擎方案。
方案描述:
行业门户搜索引擎方案主要从信息采集、信息消重、信息索引和信息搜索四个方面来设计。通过网络蜘蛛从指定的网站上抓取网页,存为html格式的文件,通过格式化文件转化工具,把html文件转化为txt文本,通过文件消重模块,把多个网站中重复的信息删除,然后将消重后的数据入库,并建立全文索引库,全文检索服务对外提供搜索服务。
方案设计:
整个方案设计分成:网络蜘蛛组件、文本转化组件、数据消重组件、全文检索服务、类google风格Web搜索页面。
各部分完成的功能如下:
1. 网络蜘蛛组件:完成从外部网站的网页收集,定时把外部网站的信息下载到本地,存放在本地文件系统中。
2. 文本转化组件:提取html格式网页中有用信息,过滤广告、无用链接、图片、框架等,转化成全文检索服务可识别的文本文件。
3. 数据消重组件:把不同网站的文本信息统一处理,消除重复的信息。
4. 全文检索服务:完成数据入库、索引、搜索功能。
方案优势:
基于海量科技多年的检索技术积累,行业门户搜索引擎方案具有明显的优势:
1. 可以自由定制监控和搜索外部网站。
2. 可以实现自动的实时更新。
3. 实现精确的信息搜索。DESE文件转化组件能提取网页中有用的信息。
4. 可以解决大量的信息垃圾难题。DESE信息消重组件把外网中重复的过滤。
网站站内搜索引擎逐渐称为网站不可缺少的组成部分,同时也成为网站地位的象征。然而,随着网络的发展,组织和组织之间的关系越来越紧密,简单的站内搜索引擎已经不能满足网站的需求。特别是对于政府机构网站、行业门户网站等,除了在网站内部有自己的搜索引擎以外,还需要对于下属机构或兄弟机构的网站实现统一搜索。 因此,门户搜索成为了一个重要的组成部分。
目前门户搜索主要需要满足以下功能:
1. 可以指定的多个网站(非本网站),并对这些网站进行搜索。
2. 可以任意的增加或者删除网站的列表。
3. 实现关键词搜索、各种逻辑搜索。
4. 需要信息同步。即外部网站一旦更新,在本网查找的那些信息也要更新。
5. 搜索结果中不能有大量的重复信息。
6. 可以按照相关度或者时间排序。
7. 可以在所有网站中统一搜索,也可以在单个网站搜索。
8. 搜索结果的链接应该返回原网站,避免版权问题。
海量科技利用在检索领域多年的经验,根据海量的自动语意消重技术和网页抓取技术,以全文检索服务为核心,设计出一套行业门户搜索引擎方案。
行业门户搜索引擎方案主要从信息采集、信息消重、信息索引和信息搜索四个方面来设计。通过网络蜘蛛从指定的网站上抓取网页,存为html格式的文件,通过格式化文件转化工具,把html文件转化为txt文本,通过文件消重模块,把多个网站中重复的信息删除,然后将消重后的数据入库,并建立全文索引库,全文检索服务对外提供搜索服务。
整个方案设计分成:网络蜘蛛组件、文本转化组件、数据消重组件、全文检索服务、类google风格Web搜索页面。各部分完成的功能如下:
1. 网络蜘蛛组件:完成从外部网站的网页收集,定时把外部网站的信息下载到本地,存放在本地文件系统中。
2. 文本转化组件:提取html格式网页中有用信息,过滤广告、无用链接、图片、框架等,转化成全文检索服务可识别的文本文件。
3. 数据消重组件:把不同网站的文本信息统一处理,消除重复的信息。
4. 全文检索服务:完成数据入库、索引、搜索功能。
基于海量科技多年的检索技术积累,行业门户搜索引擎方案具有明显的优势:
1. 可以自由定制监控和搜索外部网站。
2. 可以实现自动的实时更新。
3. 实现精确的信息搜索。DESE文件转化组件能提取网页中有用的信息。
4. 可以解决大量的信息垃圾难题。
DESE信息消重组件把外网中重复的过滤。
网站站内搜索引擎逐渐称为网站不可缺少的组成部分,同时也成为网站地位的象征。然而,随着网络的发展,组织和组织之间的关系越来越紧密,简单的站内搜索引擎已经不能满足网站的需求。特别是对于政府机构网站、行业门户网站等,除了在网站内部有自己的搜索引擎以外,还需要对于下属机构或兄弟机构的网站实现统一搜索。
因此,门户搜索成为了一个重要的组成部分。目前门户搜索主要需要满足以下功能:
1. 可以指定的多个网站(非本网站),并对这些网站进行搜索。
2. 可以任意的增加或者删除网站的列表。
3. 实现关键词搜索、各种逻辑搜索。
4. 需要信息同步。即外部网站一旦更新,在本网查找的那些信息也要更新。
5. 搜索结果中不能有大量的重复信息。
6. 可以按照相关度或者时间排序。
7. 可以在所有网站中统一搜索,也可以在单个网站搜索。
8. 搜索结果的链接应该返回原网站,避免版权问题。
海量科技利用在检索领域多年的经验,根据海量的自动语意消重技术和网页抓取技术,以全文检索服务为核心,设计出一套行业门户搜索引擎方案。
方案描述:
行业门户搜索引擎方案主要从信息采集、信息消重、信息索引和信息搜索四个方面来设计。通过网络蜘蛛从指定的网站上抓取网页,存为html格式的文件,通过格式化文件转化工具,把html文件转化为txt文本,通过文件消重模块,把多个网站中重复的信息删除,然后将消重后的数据入库,并建立全文索引库,全文检索服务对外提供搜索服务。
方案设计:
整个方案设计分成:网络蜘蛛组件、文本转化组件、数据消重组件、全文检索服务、类google风格Web搜索页面。
各部分完成的功能如下:
1. 网络蜘蛛组件:完成从外部网站的网页收集,定时把外部网站的信息下载到本地,存放在本地文件系统中。
2. 文本转化组件:提取html格式网页中有用信息,过滤广告、无用链接、图片、框架等,转化成全文检索服务可识别的文本文件。
3. 数据消重组件:把不同网站的文本信息统一处理,消除重复的信息。
4. 全文检索服务:完成数据入库、索引、搜索功能。
方案优势:
基于海量科技多年的检索技术积累,行业门户搜索引擎方案具有明显的优势:
1. 可以自由定制监控和搜索外部网站。
2. 可以实现自动的实时更新。
3. 实现精确的信息搜索。DESE文件转化组件能提取网页中有用的信息。
4. 可以解决大量的信息垃圾难题。DESE信息消重组件把外网中重复的过滤。
网站站内搜索引擎逐渐称为网站不可缺少的组成部分,同时也成为网站地位的象征。然而,随着网络的发展,组织和组织之间的关系越来越紧密,简单的站内搜索引擎已经不能满足网站的需求。特别是对于政府机构网站、行业门户网站等,除了在网站内部有自己的搜索引擎以外,还需要对于下属机构或兄弟机构的网站实现统一搜索。 因此,门户搜索成为了一个重要的组成部分。
目前门户搜索主要需要满足以下功能:
1. 可以指定的多个网站(非本网站),并对这些网站进行搜索。
2. 可以任意的增加或者删除网站的列表。
3. 实现关键词搜索、各种逻辑搜索。
4. 需要信息同步。即外部网站一旦更新,在本网查找的那些信息也要更新。
5. 搜索结果中不能有大量的重复信息。
6. 可以按照相关度或者时间排序。
7. 可以在所有网站中统一搜索,也可以在单个网站搜索。
8. 搜索结果的链接应该返回原网站,避免版权问题。
海量科技利用在检索领域多年的经验,根据海量的自动语意消重技术和网页抓取技术,以全文检索服务为核心,设计出一套行业门户搜索引擎方案。
行业门户搜索引擎方案主要从信息采集、信息消重、信息索引和信息搜索四个方面来设计。通过网络蜘蛛从指定的网站上抓取网页,存为html格式的文件,通过格式化文件转化工具,把html文件转化为txt文本,通过文件消重模块,把多个网站中重复的信息删除,然后将消重后的数据入库,并建立全文索引库,全文检索服务对外提供搜索服务。
整个方案设计分成:网络蜘蛛组件、文本转化组件、数据消重组件、全文检索服务、类google风格Web搜索页面。各部分完成的功能如下:
1. 网络蜘蛛组件:完成从外部网站的网页收集,定时把外部网站的信息下载到本地,存放在本地文件系统中。
2. 文本转化组件:提取html格式网页中有用信息,过滤广告、无用链接、图片、框架等,转化成全文检索服务可识别的文本文件。
3. 数据消重组件:把不同网站的文本信息统一处理,消除重复的信息。
4. 全文检索服务:完成数据入库、索引、搜索功能。
基于海量科技多年的检索技术积累,行业门户搜索引擎方案具有明显的优势:
1. 可以自由定制监控和搜索外部网站。
2. 可以实现自动的实时更新。
3. 实现精确的信息搜索。DESE文件转化组件能提取网页中有用的信息。
4. 可以解决大量的信息垃圾难题。
DESE信息消重组件把外网中重复的过滤。
- 行业门户搜索引擎方案
- 大型门户网站搜索引擎优化方案
- 行业B2B门户发展趋势
- 行业门户网站架构
- 如何运营行业门户网站
- B2B行业门户网站解决方案
- 教育局门户网站建设方案
- 揭阳门户站合作方案
- 行业门户网站建设解决方案流程
- 3G行业门户到底是神马东西
- 想做一个行业门户,主要功能这样
- 行业门户网站如何捕获访客“芳心”
- 地区行业门户网站如何做?
- 搜索引擎、门户和社区,一个都不能少【转】
- 开发垂直门户的分布式搜索引擎系统
- 门户网站与搜索引擎之杂谈[原创]
- 门户网站的搜索引擎优化策略
- 一般门户网站的搜索引擎优化策略
- 电脑装机全程图解
- 世界级投资大师们的至理名言
- 搜索引擎技术:系统架构
- 年会
- 如何使用资源文件
- 行业门户搜索引擎方案
- 手指与戒指
- C++中反向传播算法的简单实现
- Java中将long格式化成网卡地址
- C++中蚁群优化算法的实现
- 作为一个合格程序员每天该做的事
- 使OutLook最小化到托盘
- 将一个电脑加入域活动目录(Vbscript脚本语言)
- 2006年最失败的事,2007年必须做的事