关于站内搜索的方案对比

来源:互联网 发布:makefile 基于python 编辑:程序博客网 时间:2024/06/07 17:09
 

基于数据库的搜索

基于spider抓取的站内搜索

全文检索站内搜索软技术

网站

大部分网站,如中文BT联盟

部分中大型网站如俺要下载软件网

少量大型网站,如华军网

技术原理

数据库搜索

经Spider抓取网页,对html解析/分词/索引实现网页式站内搜索

对数据库数据进行html解析、分词,索引,实现站内搜索

数据容量

小于百万级

千万级以上

千万级以上

检索效率

秒级速度,准确度高,

毫秒级速度,高速,准确度低

毫秒级速度,高速,准确度高

检索能力

不支持分词功能,无法完成全文检索,但可以用sql的单字索引功能实现最低级的全文检索

支持分词功能,但随数据量增加,搜索结果中垃圾信息比重上升,影响结果的排序和显示效果,严重影响精确度。只对静态页面进行搜索,动态页面数据无法抓取

支持分词功能,可对过关键字进行检索,可基于内容分析的排序方法。所有动态网页和没有链接的网页均可有效收录

抗压能力

差,随数据量上升,数据库压力增大,系统崩溃的危险系数高

抗压能力强,系统安全系数高

抗压能力强,系统安全系数高

结果精度

用户对搜索范围、内容和体现的结果无法精确控制

用户对搜索范围、内容和体现的结果无法精确控制

用户可对搜索的内容范围和体现的结果进行精确的控制

内容范围

可控制

不可有效控制,栏目无法精确控制

可有效控制,栏目控制精准

动态摘要

摘要内容不清晰各种垃圾信息过多

提供动态摘要,摘要清晰精确,便于用户快速寻找到所需信息

其他功能

1、无关键字飘红
2、无同义词搜索
3、可实现相关性排序

1、有关键字飘红
2、无同义词搜索
3、可实现相关性排序
4、支持标准的国际搜索语法。
5、二次开发成本高

1、有关键字飘红
2、有同义词搜索
3、可实现相关性排序
4、支持标准的国际搜索语法
5、持续升级能力,可提供良好的售后服务

 
原创粉丝点击