【读书笔记】Lucene+nutch搜索引擎开发

来源：互联网发布：node解决跨域问题编辑：程序博客网时间：2024/04/27 16:55

搜索引擎的5个组成部分

1. 网页信息抓取：从互联网上不断发现新的链接，采集页面作为建立索引的原材料

2. 网页内容分析：负责对采集的网页进行分析，提取其中的关键词

3. 网页索引建立：为网页和分析得到的文本建立一个可供检索的索引库

4. 网页检索结果排序：通过链接分析、PageRank算法对检索结果进行排序

5. 网页检索工具与接口：为用户提供访问途径，帮用户通过系统界面获得结果

网页信息抓取技术的问题

1. 海量数据如何采用分布式和并行处理

2. 如何定期更新已经搜集过的旧信息

3. 偈定期更新数据库

网页信息抓取的搜索策略

1. 深度优先

2. IP段扫描

3. 广度优先，通常采用，保证整体覆盖率

网页内容分析：一般包括分析、过滤、转换等工作。

网络爬虫功能需求

1. 可配置性，需要动态配置信息，设定待抓取URL地址列表、抓取深度和层次范围、抓取使用的线程情况、时间间隔和更新周期

2. 新网站和新链接的发现能力

3. 下载网页的存储和管理

4. 高效的网页更新和死链判别方法

5. 域名解析缓存机制和已下载内容的本地代理缓存

常用的网页分析方法

1. 简单语言标记去除，基于HTML的特点，采用尖括号分离

2. 正则表达式信息抽取，利用模版方式抽取有效信息

3. DOM树内容抽取，网页内容转换为树形存储结构，然后遍历树，访问网页的任何内容

网络爬虫3个莫夸

1. HTTP下载模块

2. 链接分析模块，提取网页内的超链接，获得后续页面的入口

3. 下载控制模块，控制网页访问次序、更新策略、访问队列调度

Lucene有3种主要手段来控制排序结果

1. 包括使用Sort对象定制排序

2. 通过改变文档Boost值

3. 使用自定义的Similarity方法

Lucene中文分词

1. 基于字典匹配

2. 基于语义理解

3. 基于词频统计