【读书笔记】Lucene+nutch搜索引擎开发
来源:互联网 发布:node解决跨域问题 编辑:程序博客网 时间:2024/04/27 16:55
搜索引擎的5个组成部分
1. 网页信息抓取:从互联网上不断发现新的链接,采集页面作为建立索引的原材料
2. 网页内容分析:负责对采集的网页进行分析,提取其中的关键词
3. 网页索引建立:为网页和分析得到的文本建立一个可供检索的索引库
4. 网页检索结果排序:通过链接分析、PageRank算法对检索结果进行排序
5. 网页检索工具与接口:为用户提供访问途径,帮用户通过系统界面获得结果
网页信息抓取技术的问题
1. 海量数据如何采用分布式和并行处理
2. 如何定期更新已经搜集过的旧信息
3. 偈定期更新数据库
网页信息抓取的搜索策略
1. 深度优先
2. IP段扫描
3. 广度优先,通常采用,保证整体覆盖率
网页内容分析:一般包括分析、过滤、转换等工作。
网络爬虫功能需求
1. 可配置性,需要动态配置信息,设定待抓取URL地址列表、抓取深度和层次范围、抓取使用的线程情况、时间间隔和更新周期
2. 新网站和新链接的发现能力
3. 下载网页的存储和管理
4. 高效的网页更新和死链判别方法
5. 域名解析缓存机制和已下载内容的本地代理缓存
常用的网页分析方法
1. 简单语言标记去除,基于HTML的特点,采用尖括号分离
2. 正则表达式信息抽取,利用模版方式抽取有效信息
3. DOM树内容抽取,网页内容转换为树形存储结构,然后遍历树,访问网页的任何内容
网络爬虫3个莫夸
1. HTTP下载模块
2. 链接分析模块,提取网页内的超链接,获得后续页面的入口
3. 下载控制模块,控制网页访问次序、更新策略、访问队列调度
Lucene有3种主要手段来控制排序结果
1. 包括使用Sort对象定制排序
2. 通过改变文档Boost值
3. 使用自定义的Similarity方法
Lucene中文分词
1. 基于字典匹配
2. 基于语义理解
3. 基于词频统计
- 【读书笔记】Lucene+nutch搜索引擎开发
- Nutch+Lucene搜索引擎开发实践
- Lucene+nutch构建垂直搜索引擎
- nutch/solr/lucene//hadoop/hbase 搜索引擎
- Nutch & Lucene 之 搜索引擎文本分析
- 《开发自己的搜索引擎》读书笔记——Lucene搜索
- 《开发自己的搜索引擎》读书笔记——Lucene的分析器
- 开发自己的搜索引擎读书笔记——搜索引擎与信息检索、Lucene入门
- Lucene(Nutch)距离商业文本搜索引擎还有多远?(转载)
- Lucene(Nutch)与商业文本搜索引擎的区别
- Lucene(Nutch)距离商业文本搜索引擎还有多远
- 构建自己的搜索引擎(lucene,hadoop,nutch)
- Lucene(Nutch)距离商业文本搜索引擎还有多远?
- Lucene(Nutch)距离商业文本搜索引擎还有多远?
- 利用Lucene与Nutch构建简单的全文搜索引擎
- Lucene 搜索引擎开发初试 (1)
- 开发基于 Nutch 的集群式搜索引擎
- 开发基于 Nutch 的集群式搜索引擎
- 纸上谈兵: 拓扑排序强攻“科技树”
- android input system(frameworks) analysis -- InputManager (1)
- linux守护进程
- hive中UDF和UDAF使用说明
- linux进程关系
- 【读书笔记】Lucene+nutch搜索引擎开发
- Linux IP别名和多网卡绑定
- oracle数据库约束
- LeetCode-Jump Game II
- SQL Server 2012 不允许保存更改,您所做的更改要求删除并重新创建以下表
- 【读书笔记】Lucene分析与应用
- CSharp随心所欲生成各种二维码
- STL
- 车联网中的场景设计,即时场景与非即时场景