nutch学习
来源:互联网 发布:青岛新思享网络骗局 编辑:程序博客网 时间:2024/05/22 03:10
首先svn检查nutch项目:svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.6/
检出后的项目名叫release-1.6, 进入后用输入ant命令,来下载项目依赖的jar包,下载完成之后会多出Build和runtime文件夹。
运行第一个nutch任务:1.新建一个文件夹urls,新建一个url文件并且输入一个根地址 http://www.xywy.com
2.运行nutch命令,nohup bin/nutch crawl urls -dir data -depth 3 -threads 10 &
3.运行完成之后在data目录下生成三个文件夹,crawdb,linkdb,segments
crawdb文件中存放的是爬去过程中抓取过的所有的url
segments文件夹下存放的是每运行一次generate,fetch都会生成一个以时间命令的文件夹
用nutch命令可以查看crawdb中那个url的数量:bin/nutch readdb data/crawldb/ -stats
Nutch命令中的readdb命令:
bin/nutch readdb data/crawldb/ -stats 查看crawldb目录下的url的数据情况
bin/nutch readdb data/crawldb/ -dump data/crawldb/crawldb_dump 导出所有url
bin/nutch readdb data/crawldb/ -topN 10 data/crawldb/crawdb_topN 拿出分数排在前10的url记录
Nutch命令中readseg命令:
readseg -dump data/segments/20141204094346/ data/segments/20141204094346_dump -nocontent -nofetch -nogenerate -noparse -noparsedata -noparsetext (-dump 导出文件)
Nutch命令中的readlinkdb命令:
bin/nutch readlinkdb data/linkdb -dump data/linkdb_dump 导出linkdb的内容
bin/nutch readlinkdb data/linkdb -url http://club.xywy.com/ 查看特定url的关联url
=====================================================================================================
深入分析nutch的抓取周期
generate --> fetch --> parse --> updatedb
parse之后产生的文件夹为content、crawl_fetch、crawl_generate文件夹
执行invertlinks命令后会产生linkdb目录
parsechecker命令,该命令是用来解析一个url地址,可以通过他来查看一个url的所有输出url.
bin/nutch domainstats data2/crawldb/current/ host host 用来查看已经爬取到的url中有多少host.(可以查看host,domain,suffix,tld)。
bin/nutch webgraph -segmentDir data2/segments -webgraphdb data2/webgraphdb 根据segments生产webgraphdb文件夹
bin/nutch nodedumper -inlinks -output inlinks_node -top 1 -webgraphdb data2/webgraphdb 用nodedumper命令对webgraphdb按inlinks排序,并且查看分值。(可以根据outlinks排序,也可以根据score排序)
- 学习Nutch
- 学习nutch
- nutch学习
- nutch学习
- Nutch-2.2.1学习之一Nutch简介
- Nutch-2.2.1学习之一Nutch简介
- nutch近期学习进展
- nutch入门学习
- NUTCH学习笔记汇总
- Nutch入门学习
- Nutch学习文章大全
- nutch 学习笔记
- Nutch学习笔记
- Nutch学习与安装
- Nutch学习笔记二
- Nutch学习笔记三
- Nutch 学习笔记 2
- nutch 学习资料
- POJ1144 Network PASCAL代码
- SSH原理与运用
- linux中exit()和_exit区别
- oracle 序列
- cocos2dx 自动添加所有cpp文件到android.mk
- nutch学习
- js获得客户端的真实ip,然后通过ip地址来解析所在的省份
- 用ini文件实现数据库的增、删、改、查
- 设计模式之简单工厂模式
- Ubuntu如何搭建mysql的slave
- 设计模式
- NSString 与 NSMutableString 常用方法
- hust OJ如何写一个special judge
- vb跟access做图书馆管理系统怎么做