Nutch研究系列1——安装(收藏)
来源:互联网 发布:js获取textarea的内容 编辑:程序博客网 时间:2024/06/15 18:29
原著未明,仅做收藏,谅解
最近着手开始研究Nutch,以前在Linux上曾经对Nutch鼓捣过一段时间,但当时纯粹是出于一种好奇和玩乐的心态,并没有对其进行过深入的探讨和研究。随着自己的论文方向锁死在搜索引擎爬虫,在此之前又一直关注于搜索算法理论和数学模型等的学习上,现在是到了静下心来在实现技术上花点功夫的时候了。
其实一开始,我的目标曾经是Larbin(详细介绍请Google),但是最终转向了Nutch,主要考虑到两个方面的问题:一是Larbin的功能有点单薄,只有抓取功能的实现,接下来的索引等工作都需要自己来完成,而我目前主要的目的在于主题抓取,其余的部分我不想过于涉足,只想有一个实验平台就好。如果用Larbin的话就需要花费相当的时间在抓取以外的部分;用Nutch的话就比较方便了,其功能比较齐全,直接可以搭建起来进行搜索引擎的运行,这样我就可以集中精力对其抓取的部分进行分析和研究,作出我自己需要的改进。另一方面就是考虑到编程语言的问题,Larbin是基于c++的,Nutch则是基于java的,对我而言,java的能力要远高于c++,选择java对我有利。不过相对的,c++的速度我就享受不到了,虽然有点担心,但是目前对于我只是研究来说,好像还不需要太多的担心。
至于操作系统,最好当然是Linux,但是目前我却是在windows上进行测试。因为我现在是在我个人的pc上进行学习,一边要运行它,另一边我还得做很多其它的工作,等过些时候导师的服务器到了,到时候再配置到那上面去吧。
说了这么多废话,言归正传,安装测试Nutch。有过Linux的安装经验,在windows上面难度其实不大,但是还是碰到了几个问题,让我晕得厉害。详细的安装指南请参考朱春雷:Nutch在windows中安装之细解和Nutch使用之锋芒初试。这两篇文章写的很不错,很值得向人推荐,其中所需资源的下载链接速度也是很快的,1G多的cygwin半个小时就down下来了。
唯一需要注意的是,文章默认为你是一个java入门级的人,所以对jdk和tomcat的安装配置都没有进行详细介绍,一些小的操作也是一笔带过,请大家小心。
我在安装过程中碰到了一个不算问题的郁闷事,那就是我下载的最新版本Nutch的tar.gz压缩包在解压缩的时候总是报错,说是"tar存档文件出现错误",一开始我以为是flashget多线程下载损坏文件了,后来我怀疑winrar有问题,后来折腾了五六遍也不知道是怎么回事。说是下载坏了,重下载也不行,说是winrar不行,winzip也不行,真是郁闷。后来终于等到cygwin下载完了,得了,直接安装上去用Linux命令tar xvzf file.tar.gz 解压缩吧。果然就成功了,Nutch真是欺负windows啊,哈哈。
安装完了,接下来的进一步研究且待后续分解:)
其实一开始,我的目标曾经是Larbin(详细介绍请Google),但是最终转向了Nutch,主要考虑到两个方面的问题:一是Larbin的功能有点单薄,只有抓取功能的实现,接下来的索引等工作都需要自己来完成,而我目前主要的目的在于主题抓取,其余的部分我不想过于涉足,只想有一个实验平台就好。如果用Larbin的话就需要花费相当的时间在抓取以外的部分;用Nutch的话就比较方便了,其功能比较齐全,直接可以搭建起来进行搜索引擎的运行,这样我就可以集中精力对其抓取的部分进行分析和研究,作出我自己需要的改进。另一方面就是考虑到编程语言的问题,Larbin是基于c++的,Nutch则是基于java的,对我而言,java的能力要远高于c++,选择java对我有利。不过相对的,c++的速度我就享受不到了,虽然有点担心,但是目前对于我只是研究来说,好像还不需要太多的担心。
至于操作系统,最好当然是Linux,但是目前我却是在windows上进行测试。因为我现在是在我个人的pc上进行学习,一边要运行它,另一边我还得做很多其它的工作,等过些时候导师的服务器到了,到时候再配置到那上面去吧。
说了这么多废话,言归正传,安装测试Nutch。有过Linux的安装经验,在windows上面难度其实不大,但是还是碰到了几个问题,让我晕得厉害。详细的安装指南请参考朱春雷:Nutch在windows中安装之细解和Nutch使用之锋芒初试。这两篇文章写的很不错,很值得向人推荐,其中所需资源的下载链接速度也是很快的,1G多的cygwin半个小时就down下来了。
唯一需要注意的是,文章默认为你是一个java入门级的人,所以对jdk和tomcat的安装配置都没有进行详细介绍,一些小的操作也是一笔带过,请大家小心。
我在安装过程中碰到了一个不算问题的郁闷事,那就是我下载的最新版本Nutch的tar.gz压缩包在解压缩的时候总是报错,说是"tar存档文件出现错误",一开始我以为是flashget多线程下载损坏文件了,后来我怀疑winrar有问题,后来折腾了五六遍也不知道是怎么回事。说是下载坏了,重下载也不行,说是winrar不行,winzip也不行,真是郁闷。后来终于等到cygwin下载完了,得了,直接安装上去用Linux命令tar xvzf file.tar.gz 解压缩吧。果然就成功了,Nutch真是欺负windows啊,哈哈。
安装完了,接下来的进一步研究且待后续分解:)
- Nutch研究系列1——安装(收藏)
- NUTCH研究系列2——剖析NUTCH爬虫(收藏)
- NUTCH研究系列3——剖析NUTCH爬虫2(收藏)
- NUTCH研究系列4——剖析NUTCH爬虫3(收藏)
- nutch系列1——nutch简单介绍
- nutch研究—基本使用相关说明
- Nutch研究之-Nutch基于Windows平台安装篇
- nutch系列2——nutch2.x的编译、安装和配置
- nutch研究—遇到的错误和解决办法
- nutch研究—遇到的错误(2)
- Nutch教程中文翻译1(官方教程,中英对照)——Nutch的编译、安装和简单运行
- 关于 nutch 查询(收藏)
- Nutch 的配置文件 (收藏)
- Nutch搜索引擎分析(收藏)
- 开始研究Nutch搜索引擎
- nutch solr系列之(一)win7下安装nutch solr
- 【Apache Nutch系列】Nutch2.0配置安装异常集锦
- source insight研究——正则表达式篇 收藏
- Nutch 笔记(二):Craw more urls and Recrawl(收藏)
- JS常用正则表达式
- Tiny Download&&Exec ShellCode
- ANSI/ISO C++ Professional Programmer's Handbook 4
- 单击按钮或执行一些其他操作会导致回发
- Nutch研究系列1——安装(收藏)
- 爱似神仙 碧娜
- 盘口技术大全(一): 看盘要诀
- Get还是Post
- SQL Server触发器在保持数据库完整性中的应用
- 用可变参数宏(variadic macros)传递可变参数表
- 用C#实现生成PDF文档
- Compostion模式
- linux 操作