程序博客网 > 查淘宝产品上架日期

nutch使用入门

来源：互联网发布：查淘宝产品上架日期编辑：程序博客网时间：2024/05/24 01:49

基本概念：

crawldb，nutch所处理的所有url信息，包括是否被fetch过，以及url被fetch时间。
linkdb，url links，包括源url和链接文本信息
segments集合，每一个segment是一组fetched的urls单元，segments包括以下子目录：

1. crawl_generate, 将要被抓取 urls集合

2. crawl_fetch, 正在被抓取的每一个url的状态信息

3. content，从每一个url中提取的原生内容

4. parse_text, 从每一个url中解析出来的文本信息

5. parse_date, 从每一个url中解析出来的链接和元数据

6. crawl_parse, 从url中解析出来的url链接，用于更新crawldb

分布执行步骤：

注入爬取所需种子列表，bin/nutch inject crawl/crawldb urls
从crawldb中生成要抓取的url列表，bin/nutch generate crawl/crawldb crawl/segments
根据url抓取网页，bin/nutch fetch data/segments/201507151245
解析网页内容，bin/nutch parse data/segments/201507151245
根据抓取结果更新数据库，bin/nutch updated data/crawldb –dir data/segments/201507151245
反转索引，在建立索引之前，我们首先对所有的链接进行反转，这样我们才可以对页面的来源锚文本进行索引。
```
bin/nutch invertlinks data/linkdb –dir data/segments/201507151245
```

0 0

查淘宝产品上架日期

查淘宝产品上架日期

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子淘宝卖家发错货怎么办美团众包被投诉怎么办超市买到臭鸡蛋怎么办云集微店一年后怎么办淘宝电子烟控价怎么办美容院没有客源怎么办苹果买到假的怎么办买到假苹果8怎么办农户贷款证怎么办建行车贷被拒怎么办买了套现车怎么办买车办不下贷款怎么办贷款下不来怎么办汽车贷款下不来怎么办买车征信有问题怎么办 e招贷多还了怎么办车贷没带下来怎么办? 买净水器被骗怎么办淘宝泄露啦怎么办怎么办移动大王卡淘宝里怎么办信用卡刚买完车就降价怎么办淘宝退货过期怎么办巿民卡没有了怎么办学位认证怎么办闲鱼微信被骗了怎么办淘宝支付两次怎么办怎么办假学位证花呗多扣了一次怎么办 apec商旅卡怎么办 apec商务旅行怎么办 12306重复付款怎么办滴滴重复支付怎么办信用卡重复刷卡怎么办京东代付单被骗怎么办淘宝订单不见了怎么办静脉回流不好怎么办 qq群被停封怎么办银行封账号怎么办微信诈骗怎么办微信里没有购物怎么办