JSpider学习七——调试SpiderImpl的crawl
来源:互联网 发布:淘宝店铺背景图 编辑:程序博客网 时间:2024/05/01 19:13
从main的第一句,走到最后,进入JSpider的start方法中,调用SpiderImpl的crawl。
前面对crawl做了分析,这里不重复流水了。context.getEventDispatcher().dispatch(new SpideringStartedEvent(context.getBaseURL()))将Spider开启事件派发出去,然后进入context.getAgent().start()方法看看究竟这里的agent干点什么。
————于是进入到AgentImpl的visit方法中。这里判断参数中的链接是否已经在数据库当中,没有则加入,并在context中注册,其实就是把Site类型转成了SiteInternal类型,并且在spiderRules和parserRules里面加了对应规则(一个Ruleset对象)。加入后通过eventDispatcher.dispatch(new SiteDiscoveredEvent(site))派发一个找到新网站的事件,这里的eventDispatcher与context.getEventDispatcher()是同一个对象,以后也都应该通过这个eventDispatcher派发全局事件吧。
————然后的事情涉及到一个robotsTXT文件,scheduler.schedule(new FetchRobotsTXTTaskImpl(context, robotsTXTUrl, site)),将获取该文件的工作进行了时间安排。如果是新的资源,则scheduler.block(siteURL, new DecideOnSpideringTask(context, new URLFoundEvent(context, url, foundURL))),即对与还没有解释robotsTXT之前,新建并同时阻塞对该网站的DecideOnSpidering任务。
————之后还有加入新资源处理,eventDispatcher.dispatch(new ResourceDiscoveredEvent(storage.getResourceDAO().getResource(foundURL)))来派发新资源发现事件。
回到crawl,通过spiders.assignGroupTask(dispatchSpiderTask)和thinkers.assignGroupTask(dispatchThinkerTask)为spiders和thinkers的dispatcherThread分配了任务。然后dispatchSpiderTask.wait()等待spidering过程的结束。spidering结束后,通过spiders.stopAll()和thinkers.stopAll()停止所有的工作。记录SpideringSummary和SpideringStoppedEvent事件,最后context.getEventDispatcher().shutdown()关闭全局的事件派发器。
main方法就这样执行完了。
下一步的任务是分析任务执行的代码,还是通过调试看吧。
- JSpider学习七——调试SpiderImpl的crawl
- JSpider的调试
- JSpider学习一 —— 基础
- JSpider学习二 —— 应用示例
- JSpider学习四 —— Spider
- JSpider学习五 —— WorkerThreadPool
- JSpider学习三 —— 启动代码分析
- JSpider学习六 —— DispatcherThread和WorkerThread
- Nutch学习——读源码 Crawl.java
- JSpider学习笔记 ( by quqi99 )
- JSpider学习笔记(1)
- GDB调试学习(七)
- crawl spider的使用
- nutch中bin/crawl和bin/nutch crawl的用法
- Google 的 Deep-Web Crawl
- nutch crawl的每一步
- nutch-1.7-学习笔记(2)-org.apache.nutch.crawl.Generator.java-关于Hadoop的partition
- nutch-1.7-学习笔记(2)-org.apache.nutch.crawl.Generator.java-关于Hadoop的partition
- Android--入门---1---(android what is Android?)
- 调试freescale CSI sa7113 camera的心得
- SEO笔记——百度排名你需要懂的标题优化
- LL parser
- Android--入门---2---(Android 的环境搭建&配置 JDK 1.6+ Eclipse + ADT +SDK(windows / ubuntu))
- JSpider学习七——调试SpiderImpl的crawl
- SGU 108 Self-numbers 2
- 老鼠喝酒问题(二进制编码的妙用)
- Android--入门---5---(android emulator 介绍)
- freescale R10 ipu lib 分析 - ipu_capture.c
- google map 开发(1)- 新建一个地图及标记
- sdf
- Android--入门---3---(Android 系统的使用&开发前的设置)
- SQL分页查询