搭建小型搜索引擎---原理及工具
来源:互联网 发布:淘宝管控记录 编辑:程序博客网 时间:2024/05/16 20:27
简单记录一下搜索引擎的基本原理和搭建步骤。
搜索引擎基本框架
搭建搜索引擎主要分为三个步骤:Web信息的搜集;信息的索引与检索;Web服务提供接口。
1.信息搜集
信息搜集的原理是将互联网看成一个大的图,则信息搜集可以看成是图的遍历,目的是为了获取高质量的网页,其搜集的策略就有广度优先搜索和深度优先搜索及网站采集和全局URL采集等。推荐的开源信息搜集工具是Weblech,Weblech的基本流程图为:
2.索引与搜索
在建立索引上,大规模数据的索引常常使用倒排索引,具体的介绍百度百科介绍的挺好:倒排索引,建立倒排索引的流程如下(在分词的同时还需要有英文的词根还原,去除停用词等处理):
检索是用户提交一个查询(Query),搜索引擎查找与该查询相关结果的过程。检索的模型包括布尔模型,向量空间模型等。在检索过程中有一些判断网页等级/重要性的方法比如Google的PageRank,IBM的HITS算法等。
推荐的开源索引及检索工具为全文检索工具包Lucence。关于Lucence的具体介绍见上一篇文章Lucence全文搜索框架。
3.Web接口
用户查询请求的处理程序利用脚本语言ASP,PHP,JSP等编写即可。
接口的主要功能为:1)获取用户查询式:把用户通过Form输入的查询语句封装发送给检索服务器。2)显示结果:从检索服务器获取结果,缓存幵分页呈现给用户。
推荐的开源Web服务器工具为Tomcat。
- 搭建小型搜索引擎---原理及工具
- 小型搜索引擎搭建的几个关键点
- 搜索引擎原理及使用
- 搜索引擎原理及使用
- 搜索引擎原理及使用
- scrapy+Lucene搭建小型搜索引擎(现代信息检索大作业)
- 一个小型的搜索引擎
- 搜索引擎分类及工作原理
- 人际关系搜索引擎及实现原理
- 搜索引擎原理及存在问题
- 【工具】小型团队搭建代码共享架构Gogs
- 【垂直搜索引擎搭建07】heritrix工具化
- 实用小型搜索引擎[收集整理]
- 搜索引擎的难点及工作原理
- 浅析搜索引擎的原理及发展前景
- 搜索引擎的爬行原理及流程
- DATAGUARD原理及搭建
- 搜索引擎原理
- 插入排序实例及Java实现
- 获取 UITableViewCell 位置
- 圖像細化(骨架化)算法 分析
- Hadoop学习笔记(一)HBase脚本分析(二)hbase-daemon.sh
- Android ProgressBar 史上最强大讲解
- 搭建小型搜索引擎---原理及工具
- 单链表模板类
- canny 算子實現圖像邊緣檢測(詳細過程附源碼)
- 2012暑假学习计划
- Android 菜单(OptionMenu)大全 建立你自己的菜单
- 堆与堆排序
- 5月24日 – 6月11日 CUDA编程学习笔记
- Windows中的坐标系总结
- 多进程调用winrar