Nutch 读取搜索结果目录统计数据、提取链接结构信息

来源:互联网 发布:电影票房数据库 编辑:程序博客网 时间:2024/06/03 19:39


这样就可以编程序对其进行进一步的提取分析了。

后记:其实自己多看下Nutch命令就知道如何做了,只怪自己转载了Nutch命令这篇文章,却没有仔细阅读。

 

3.readseg

$ bin/nutch readseg 查看使用帮助
Usage: SegmentReader (-dump ... | -list ... | -get ...) [general options]

* General options:
        -nocontent      ignore content directory
        -nofetch        ignore crawl_fetch directory
        -nogenerate     ignore crawl_generate directory
        -noparse        ignore crawl_parse directory
        -noparsedata    ignore parse_data directory
        -noparsetext    ignore parse_text directory

 

* SegmentReader -dump <segment_dir> <output> [general options]
 把一个segment的全部内容另存为一个文本文件

$ bin/nutch readseg -dump csdn/segments/20110602204241 segdb

 

* SegmentReader -list (<segment_dir1> ... | -dir <segments>) [general options]
 列出每个Segments的 Name(文件夹名)、GENERATED(产生的URL数目)、Fetcher start(开始时间)、Fetcher end(结束时间)、Fetched(抓取数)、 parsed(解析数)。

$ bin/nutch readseg -list -dir csdn/segments
NAME            GENERATED       FETCHER START           FETCHER END                     FETCHED PARSED
20110602203246  1               2011-06-02T20:33:01     2011-06-02T20:33:01       1          1
20110602203450  30              2011-06-02T20:35:10     2011-06-02T20:35:31    34          15

 

 * SegmentReader -get <segment_dir> <keyValue> [general options]

获取一个特定的记录,<keyValue>      value of the key (url).

$ bin/nutch readseg -get csdn/segments/20110602204241 http://blog.csdn.net/

0 0