nutch2.3.1爬取marker流程
来源:互联网 发布:淘宝开店哪里找货源 编辑:程序博客网 时间:2024/05/21 09:14
crawlstatus: STATUS_UNFETCHED = 0x01; //Page was not fetched yet STATUS_FETCHED = 0x02; //Page was successfully fetched STATUS_GONE = 0x03; //Page no longer exists STATUS_REDIR_TEMP = 0x04; //Page temporarily redirects to other page STATUS_REDIR_PERM = 0x05; //Page permanently redirects to other page STATUS_RETRY = 0x22; //Fetching unsuccessful, needs to be retried (transient errors) STATUS_NOTMODIFIED = 0x26; //Fetching successful - page is not modifiedinjectorjob **_injmrk_ :'y'** distance:0generatorjob 生成batchId 判断distance> maxDistance return _gnmrk_ 有值return **fetchTime 太近return** count >= limit return 计算url的score **_gnmrk_ = batchId** page.batchId = batchIdfetcherjob _gnmrk_ 无值return _ftcmrk_ 有值return **batchId.equals(_gnmrk_) 则fetch** **_ftcmrk_ = _gnmrk_ **parsejob **batchId.equals(_ftcmrk_) 则parse** batchId.equals("-reparse") 或 force 强制parse _ftcmrk_ 无值return __prsmrk__ 有值return skipTruncated return status 不等STATUS_FETCHED return parse:setSignature setOutlinks __prsmrk__ = _ftcmrk_dbupdaterjob **batchId.equals(_gnmrk_) 则update** *outlinks插入数据库 *更新score *判断Signature的变动 *更新fetchTime,modifiedTime *计算newDistance *删除_ftcmrk_ / _gnmrk_ *如果 __prsmrk__ 存在:_updmrk_ = __prsmrk__ ; __prsmrk__=NULLindexingjob **batchId.equals(_updmrk_) 则 indexing** if (pstatus == null || !ParseStatusUtils.isSuccess(pstatus)) return indexing _idxmrk_ = _updmrk_
0 0
- nutch2.3.1爬取marker流程
- nutch2.2.1抓取流程
- nutch2.0抓取流程--nutch2crawling
- 【Nutch2.2.1基础教程之6】Nutch2.2.1抓取流程
- 【Nutch2.2.1基础教程之6】Nutch2.2.1抓取流程
- Nutch2.3.1版本选择
- Nutch2.3.1 新闻分类爬虫
- Nutch2.3.1+HBase单机版
- Nutch2.3.1 新闻分类爬虫
- 【Nutch2.2.1源代码分析之5】索引的基本流程
- 【Nutch2.2.1源代码分析之5】索引的基本流程
- Nutch2.3.1源码开发环境搭建
- nutch2.3.1源码分析——InjectorJob
- nutch2.3.1 nutch-site.xml配置
- Nutch2.3.1 新闻分类爬虫(借鉴)
- Nutch2.3.1 hbase配置加使用。
- windows上Nutch2.3.1导入Eclipse详解
- Nutch2.3.1在Linux上部署
- ARP嗅探和抓包学习
- Word中根据表头动态增加表格行,然后往表格里写数据,以及在Word中添加书签,然后替换书签值
- ExtJs关闭面板时清空面板中的内容
- 微信硬件蓝牙开发各种坑不完全开发指南
- 使用原生javascript生成html内容
- nutch2.3.1爬取marker流程
- 解决PLSQL报错"动态执行表不可访问,本会话的自动统计被禁止"
- SS-libv安装填坑
- 大数据分类和架构简介
- 一天一条Linux指令-mkdir
- 安卓高级 WebView的使用到 js交互
- the file couldn't be opened because you don't have permission to view it
- const的作用
- Linux(Ubuntu)下常用的基础命令笔记