Nutch 读取搜索结果目录统计数据、提取链接结构信息
来源:互联网 发布:电影票房数据库 编辑:程序博客网 时间:2024/06/03 19:39
这样就可以编程序对其进行进一步的提取分析了。
后记:其实自己多看下Nutch命令就知道如何做了,只怪自己转载了Nutch命令这篇文章,却没有仔细阅读。
3.readseg
$ bin/nutch readseg 查看使用帮助
Usage: SegmentReader (-dump ... | -list ... | -get ...) [general options]
* General options:
-nocontent ignore content directory
-nofetch ignore crawl_fetch directory
-nogenerate ignore crawl_generate directory
-noparse ignore crawl_parse directory
-noparsedata ignore parse_data directory
-noparsetext ignore parse_text directory
* SegmentReader -dump <segment_dir> <output> [general options]
把一个segment的全部内容另存为一个文本文件
$ bin/nutch readseg -dump csdn/segments/20110602204241 segdb
* SegmentReader -list (<segment_dir1> ... | -dir <segments>) [general options]
列出每个Segments的 Name(文件夹名)、GENERATED(产生的URL数目)、Fetcher start(开始时间)、Fetcher end(结束时间)、Fetched(抓取数)、 parsed(解析数)。
$ bin/nutch readseg -list -dir csdn/segments
NAME GENERATED FETCHER START FETCHER END FETCHED PARSED
20110602203246 1 2011-06-02T20:33:01 2011-06-02T20:33:01 1 1
20110602203450 30 2011-06-02T20:35:10 2011-06-02T20:35:31 34 15
* SegmentReader -get <segment_dir> <keyValue> [general options]
获取一个特定的记录,<keyValue> value of the key (url).
$ bin/nutch readseg -get csdn/segments/20110602204241 http://blog.csdn.net/
- Nutch 读取搜索结果目录统计数据、提取链接结构信息
- Nutch 读取搜索结果目录统计数据、提取链接结构信息
- 读取linux目录结构信息
- 读取结果集的结构信息
- nutch搜索结果为0。。。
- nutch搜索返回结果按照时间排序
- C# 读取搜索结果
- 提取谷歌搜索结果中的新闻
- 按照sourceInsight的搜索结果提取文件
- 将nutch的结果用solr搜索显示出来
- nmap保存结果与提取信息
- 【Nutch-1.0】Windows下解决nutch-1.0的Web前端搜索无结果
- 特征提取keypoint结构以及xxDescriptorExtractor提取结果
- 学习统计数据集链接
- nutch结构
- 解决Chrome中打不开Google搜索结果链接
- 在Google搜索结果显示原始链接
- SharePoint2013 隐藏搜索结果URL链接
- 多线程
- java list(属性方法)
- Mahout的taste里的几种相似度计算方法
- Microsoft Office Visio 2003画ER图
- 查看mysql表结构的指令
- Nutch 读取搜索结果目录统计数据、提取链接结构信息
- Mysql常用语句集锦
- 整合spring_struts2_mybatis
- JSON
- 在Ubuntu14.04上快速部署OpenStack
- 最好的8个 Java RESTful 框架
- List集合
- Notepad++插件推荐I
- ubuntu14下用戶在Root用戶下使用Scp命令是在輸入正確的密碼的時候仍然報 Permission denied, please try again 的解决办法