利用nutch-1.2和Lucene 搭建自己的搜索平台, Apache Mahout 构建社会化推荐引擎
来源:互联网 发布:linux python虚拟环境 编辑:程序博客网 时间:2024/05/09 19:02
关于这方面的文章很多!
这里只简单介绍一下,这两个框架或者说是项目的用途;
Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:
* 每个月取几十亿网页
* 为这些网页维护一个索引
* 对索引文件进行每秒上千次的搜索
* 提供高质量的搜索结果
* 以最小的成本运作
Nutch主要分为两个部分:http://baike.baidu.com/view/46642.htm#sub46642
爬虫crawler和查询searcher。
Crawler主要用于从网络上抓取网页并为这些网页建立索引。
Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。
Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以分布式配置在硬件平台上,例如将Crawler和Searcher分别放在两个主机上,这样可以提升性能。
Nutch和Lucene
Nutch是基于Lucene的。Lucene为Nutch提供了文本索引和搜索的API。
一个常见的问题是:我应该使用Lucene还是Nutch?
最简单的回答是:如果你不需要抓取数据的话,应该使用Lucene。
常见的应用场合是:你有数据源,需要为这些数据提供一个搜索页面。在这种情况下,最好的方式是直接从数据库中取出数据并用Lucene API 建立索引。
在你没有本地数据源,或者数据源非常分散的情况下,应该使用Nutch。
基于 Apache Mahout 构建社会化推荐引擎 ,
- 利用nutch-1.2和Lucene 搭建自己的搜索平台, Apache Mahout 构建社会化推荐引擎
- 基于 Apache Mahout 构建社会化推荐引擎
- 基于 Apache Mahout 构建社会化推荐引擎
- 基于 Apache Mahout 构建社会化推荐引擎
- 基于 Apache Mahout 构建社会化推荐引擎
- 基于 Apache Mahout 构建社会化推荐引擎
- 基于 Apache Mahout 构建社会化推荐引擎
- 基于 Apache Mahout 构建社会化推荐引擎
- 基于 Apache Mahout 构建社会化推荐引擎
- 基于Apache Mahout构建社会化推荐引擎
- 基于 Apache Mahout 构建社会化推荐引擎
- 基于 Apache Mahout 构建社会化推荐引擎
- 基于 Apache Mahout 构建社会化推荐引擎
- 基于 Apache Mahout 构建社会化推荐引擎
- 基于 Apache Mahout 构建社会化推荐引擎
- 基于 Apache Mahout 构建社会化推荐引擎
- 基于 Apache Mahout 构建社会化推荐引擎
- 电影推荐-基于 Apache Mahout 构建社会化推荐引擎
- C# App.config 数据库操作
- java设计模式 单例设计模式+静态工厂模式
- listview滑动删除
- 求两个数的和差积商
- Linux环境中普通用户切换到root用户问题
- 利用nutch-1.2和Lucene 搭建自己的搜索平台, Apache Mahout 构建社会化推荐引擎
- vc++实现控制USB设备启用与否
- 网页特定数据采集
- 利用spring mvc,hibernate重构系统(3)
- C++ 基础教程
- 利用spring mvc,hibernate重构系统(4)--JPA
- 利用JAVA动态编译重构系统
- 利用“图”数据结构实现简易工作流
- 数据结构——图