搜索引擎相关资源

来源：互联网发布：人大网络教育二学位编辑：程序博客网时间：2024/06/06 04:02

1. 开源项目

1.Lucene全文检索系统

http://lucene.apache.org和 http://www.lucene.com.cn/

Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。Lucene的原作者是Doug Cutting，他是一位资深全文索引/检索专家，曾经是V-Twin搜索引擎的主要开发者，后在Excite担任高级系统架构设计师，目前从事于一些Internet底层架构的研究。早先发布在作者自己的，他贡献出Lucene的目标是为各种中小型应用程式加入全文检索功能。2.Nutch系统

2. Nutch系统

http://www.nutch.org和http://www.nutchchina.com

Nutch是个完整的开放源代码的搜索引擎，是个完备的应用程序。内部实现以Lucence为基础实现搜索引擎应用.
利用Nutch经过简单设置就可以建立自己的内部网的搜索引擎，也可以针对互联网建立搜索引擎，还可以与数据库结合检索索引。

3.Compass

http://wwww.compassframework.org/

Compass是在Lucence上实现的开源搜索引擎架构，提供更加简洁的搜索引擎API. 增加了索引事务处理的支持，能够更方便地与数据库等食物处理应用进行整合。更新时更加简单、更加高效，无需删除原文档。资源与搜索引擎之间采用映射机制，Compass还能与Hibernate 、Spring架构进行集成

4.Larbin系统

http://larbin.sourceforge.net/

　larbin是一种开源的网络爬虫/网络蜘蛛，由法国的年轻人Sébastien Ailleret独立开发，用c++语言实现。larbin目的是能够跟踪页面的url进行扩展的抓取，最后为搜索引擎提供广泛的数据来源。 Larbin只是一个爬虫，也就是说larbin只抓取网页，至于如何parse的事情则由用户自己完成。另外，如何存储到数据库以及建立索引的事情 larbin也不提供。

　　latbin最初的设计也是依据设计简单但是高度可配置性的原则，因此我们可以看到，一个简单的larbin的爬虫可以每天获取500万的网页，实在是非常高效。

　　利用larbin，我们可以轻易的获取/确定单个网站的所有联结，甚至可以镜像一个网站；也可以用它建立url 列表群，例如针对所有的网页进行 url retrive后，进行xml的联结的获取。或者是 mp3，或者定制larbin，可以作为搜索引擎的信息的来源。

5. Yioop! PHP 搜索引擎

http://www.seekquarry.com/

Yioop! 是一个 PHP 的搜索引擎，可用于 Web 的一般用途搜索，或者可提供URL搜索以及各种文档的索引搜索，包括：HTML, PDF, DOC, PPT, RTF, RSS, XML, SVG, PNG, JPG, BMP, GIF, 以及 sitemaps.

2、研究网站

1,Google 黑板报 http://www.google.com.hk/ggblog/googlechinablog/

2,searchenginewatch.com大站。