Spirit+lucene+nutch

来源：互联网发布：杰士邦zero零感知乎编辑：程序博客网时间：2024/05/20 03:41

垂直搜索是针对某一个行业的专业搜索引擎，是搜索引擎的细分和延伸，是对网页库中的某类专门的信息进行一次整合，定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取，也就是将网页的非结构化数据抽取成特定的结构化信息数据，好比网页搜索是以网页为最小单位，基于视觉的网页块分析是以网页块为最小单位，而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库，进行进一步的加工处理，如：去重、分类等，最后分词、索引再以搜索的方式满足用户的需求
垂直搜索引擎技术同信息采集技术有一些共同点,不同的是,信息采集主要是将采集的信息导入本地库，而垂直搜索引擎主要是以网页的形式展现给用户,通用搜索引擎主要是利用一个spider程序到网络上爬行,一般是某个特定的周期派出一次将网页更新,垂直搜索引擎同样应有一个spider程序，但该程序只在一些特定的网络上爬行，并不会对每一个链接都感兴趣,相对来说,垂直搜索引擎的收录范围大大缩小了,但并不意味着内容的缩小,通用搜索引擎对一些动态脚本是不敏感的,例如***asp?id=***,另外还有一些javascript之类的网页一般不被收录,而恰恰是这类动态网页包含了丰富的内容,垂直搜索引擎是必须收录这些动态脚本的,这就需要在技术上做一些特殊处理,另外由于目前网页中的链接形式非常多,不但有动态脚本也有flash做的链接,这些链接方式通过传统的spider程序是很难解析出来的,在垂直搜索引擎中也应该解决.

垂直搜索的核心技术实际上就是智能spider的技术，也就是说如何将定向或者非定向的网页抓取下来进行分析后得到格式化数据的技术。垂直搜索引擎的好坏决定因素很多，但是spider的技术几乎决定了它的大部分得分。行业化很强的垂直搜索，对信息的收集，过滤等步骤的技术要求非常高。这里可以用到的技术很多，可以推荐一些，比如英国的General Architecture for Text Engineering　，另一个是Spirit is an object oriented recursive descent parser framework implemented using template meta-programming [1] techniques.

垂直搜索一般情况下爬虫分３种模式：

１．broad search的基础上对信息进行分类挑选组织。
２．定向爬虫获取信息，初级的用配上手工或者自动的模版，更高级可以用到相关的信息抽取技术，将信息进行格式化分析入库。
３．目标网站提供特殊的数据源的接口，利用这些数据进行再加工。