nutch中bin/crawl和bin/nutch crawl的用法
来源:互联网 发布:优酷网络电视下载 编辑:程序博客网 时间:2024/04/29 15:08
bin/nutch crawl <urlDir> [-solr <solrURL>] [-dir d] [-threads n] [-depth i] [-topN N]
<urlDir>: 种子url目录
[-solr <solrURL>]: Solr目录,可以简化索引
[-dir d]: 保存爬取结果的目录
[-threads n]: 设置线程数
[-depth i]: 爬取的深度,默认是5
[-topN N]: 从任何一个网页获取的最大外链数
例子:
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
如果已经安装solr,需要索引,就用以下命令
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
二、bin/nutch命令的使用
可以用此命令运行不同的class,即单步运行每个步骤。但是有些操作可能在某些版本不支持。参考官网:http://wiki.apache.org/nutch/CommandLineOptions
常用的:
1.bin/nutch readdb
2.bin/nutch mergedb
3.bin/nutch readlinkdb
4.bin/nutch inject
5.bin/nutch generate
6.bin/nutch fetch
7.bin/nutch parse
8.bin/nutch readseg
三、bin/crawl
官网链接:http://wiki.apache.org/nutch/bin/crawl
爬虫时,in/crawl脚本提供了更多的命令. 取代org.apache.nutch.crawl.Crawl类,推荐用此命令代替 bin/nutch crawl命令。
Usage: bin/crawl <seedDir> <crawlID> <solrURL> <numberOfRounds> Example: bin/crawl urls/seed.txt TestCrawl http://localhost:8983/solr/ 2
crawl脚本的参数比较多也很好理解,还可以根据自己的需要修改此文件。
四、两者的不同
主要是适用版本不同
(1)bin/nutch可以运行不同的java classes,以前版本用的居多。
(2)1.7和2.2.1及以上版本用bin/crawl取代bin/nutch crawl.
- nutch中bin/crawl和bin/nutch crawl的用法
- bin/nutch crawl错误解决办法
- nutch crawl的每一步
- nutch应用-合并Crawl
- nutch之crawl命令
- bin/nutch crawl log4j:ERROR setFile(null,true) call failed. java.io.FileNotFoundException: /usr/nutc
- bin/nutch crawl log4j:ERROR setFile(null,true) call failed. java.io.FileNotFoundException: /usr/nut
- Crawl the Nutch -- Map Reduce
- nutch crawl main函数流程
- 使用ant驱动nutch crawl
- Crawl the Nutch -- Map Reduce
- Crawl the Nutch -- Map Reduce
- 使用ant驱动nutch crawl
- Nutch Crawl执行过程解析
- 运行nutch中Crawl主方法报错
- Nutch2.3中的crawl和Nutch命令初探
- 从crawl 脚本看 nutch crawl过程 上
- Crawl The Nutch -- 起步 getting started
- sftp相关命令解析
- 黑马程序员 编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串,但要保证汉字不被截取半个
- Android 进阶学习:Android视图状态及重绘流程分析,带你一步步深入了解View(三)
- NSPredicate
- 项目闲的时候
- nutch中bin/crawl和bin/nutch crawl的用法
- 成都传智播客PHP培训火爆来袭
- C#中ref、out类型参数的区别和params类型参数的用法
- vim编辑器高级功能之多文件操作
- 我学cocos2d-x (一) 游戏基本概念:坐标系与Anchor Point
- Maven入门--概念与实例
- Coreseek:常见问题2
- oracle函数小结
- 为什么需要这个博客