搭建搜索引擎初试小刀
来源:互联网 发布:怎样对付淘宝无良商家 编辑:程序博客网 时间:2024/04/30 09:45
这几天准备考虑搭建一个搜索引擎,于是从0开始学习搜索方面的内容,还好,有很多开源的项目可以参考使用,除了学习参照,很多的可以直接拿过来用,真是感谢伟大的开源。
Heritrix是一个开箱即用的爬虫(web crawl), 可以针对站点进行深度拷贝,而且带有一个WebUI, 允许用户基于UI进行爬虫的定制,同时也提供了若干种数据存储的方式,Heritrix将抓取过程分为: Preprocessor, fetcher, extractor, writer, 和postprocessor. 针对一个站点的爬虫通过一个Job来定义。用户可以自己定义各个环节的处理器。
优点: 开箱即用,带有WebUI, 允许用户自行进行扩展processor.
缺点: 只是爬虫,只有抓取;将目标站点抓取过来,而无法实现部分数据的提取,这个需要用户自己行进行提取;对抓取的内容,无索引和检索功能。
Nutch/Solr: 目前2个已经可以集成了。Nutch提供爬虫和索引的功能,它可以抓取需要的内容。
Solr:一个基于Lucene的全文检索功能的工具。
所知甚少,还需继续学习。
- 搭建搜索引擎初试小刀
- ThinkPHP 初试小刀~
- ie9下html5初试小刀
- 开源项目小刀初试
- SQL注入之实践--初试小刀
- SQL注入之实践--初试小刀
- SQL注入之实践--初试小刀
- Lucene 搜索引擎开发初试 (1)
- Angular搭建--初试
- Solr搜索引擎开发初试(2)(接"Lucene搜索引擎开发初试(1)")
- 初试laravel-搭建环境篇
- varnish + nginx搭建初试验
- nutch搜索引擎的搭建
- 从零开始搭建nutch搜索引擎
- 搭建TSE搜索引擎
- 搜索引擎搭建:heritrix+lucene
- 搜索引擎搭建第一步--分词
- OpenGrok源码搜索引擎搭建
- Linux下使用FreeTDS访问MS SQL Server 2005数据库(包含C测试源码)
- log4cxx-linux 安装调试
- spring2的事物配置
- java常用类解析四:I/O流典型使用方式
- 从B树、B+树、B*树谈到R 树
- 搭建搜索引擎初试小刀
- 使用CAtlRegExp正则表达式检查浮点数输入
- VC++2010下编译STLport,Boost
- 谈谈多态
- 【自我管理】追求卓越从改变自己做起
- 翻译Dev Guide 之 创建Dialog
- oracle分页
- 编程之美 最短摘要解法二
- 算法运行时间计算的一般法则