开源JAVA爬虫crawler4j源码分析 - 3 线程管理

来源：互联网发布：常用接入网络管理方式编辑：程序博客网时间：2024/06/06 12:51

要做一个大的系统，得要聘请多个程序员一起工作，同样，要爬取内容庞大的互联网数据，如果只有一只爬虫，当然是不够的。

使用crawler4j只需配置指定数量的线程，就会有指定数量的爬虫线程一起抓取指定的网页内容：

controller.start(BasicCrawler.class, numberOfCrawlers);//numberOfCrawlers:线程数

那么，crawler4j到底是怎样管理这些线程的呢？以下假定指定的是10个线程。

进入CrawlController的start方法：

首先，定义两个List，分别用来存储所有的爬虫线程和实际的爬虫逻辑类：

final List<Thread> threads = new ArrayList<>();final List<T> crawlers = new ArrayList<>();for (int i = 1; i <= numberOfCrawlers; i++) {T crawler = _c.newInstance();Thread thread = new Thread(crawler, "Crawler " + i);crawler.setThread(thread);crawler.init(i, this);thread.start();crawlers.add(crawler);threads.add(thread);logger.info("Crawler " + i + " started.");}

循环10次，创建10个线程并启动它们。这时爬虫线程就已经开始工作了，不断的循环爬取页面，我们暂且不管具体单个爬虫是怎么工作的，本文只关注线程管理。

既然线程已经启动并正在工作了，怎么监控它们呢？往下：

Thread monitorThread = new Thread(new Runnable() {@Overridepublic void run() {/*...此处省略N个字...*/}}monitorThread.start();if (isBlocking) {waitUntilFinish();}

创建一个监控的线程并启动，然后主线程开始睡觉直到完成。监控线程monitor不断的、每隔10秒检查一次：

sleep(10);boolean someoneIsWorking = false;for (int i = 0; i < threads.size(); i++) {Thread thread = threads.get(i);if (!thread.isAlive()) {if (!shuttingDown) {logger.info("Thread " + i + " was dead, I'll recreate it.");T crawler = _c.newInstance();thread = new Thread(crawler, "Crawler " + (i + 1));threads.remove(i);threads.add(i, thread);crawler.setThread(thread);crawler.init(i + 1, controller);thread.start();crawlers.remove(i);crawlers.add(i, crawler);}} else if (crawlers.get(i).isNotWaitingForNewURLs()) {someoneIsWorking = true;}}

循环遍历每一个爬虫线程，首先看是否还活着，如果线程已死但是爬取工作却还没有结束，则重新创建一个新的线程加入列表，并删除原来已经die的线程，这样可确保一直都有10个线程在工作，防止某个工人不小心掉井下挂了然后影响工期 :)

如果活着，接着检查线程是不是正在干活，即不在等新的URL。什么意思呢？稍微有点绕，1个爬虫线程开始工作后会先去URL地址库领取50个URL，然后对个50个URL进行抓取，把抓取到的新的URL填入URL地址库，完了再去领……10个爬虫线程开始工作后就在URL地址库窗口排队领取，如果第X个领完就木有了，后面那10-X个就只能坐在那打牌了，等着前面X个找到了新URL。这时，只要X>0，则说明整个爬取工作还在进行。假设那X个线程没找着新的URL就回来了，那只能跟着排在后面押宝了。这时monitor线程发现，10个家伙都在打牌押宝，好，说明工作可能完成了，该验收了。

接下来：

if (!someoneIsWorking) {// Make sure again that none of the threads// are// alive.logger.info("It looks like no thread is working, waiting for 10 seconds to make sure...");sleep(10);someoneIsWorking = false;for (int i = 0; i < threads.size(); i++) {Thread thread = threads.get(i);if (thread.isAlive() && crawlers.get(i).isNotWaitingForNewURLs()) {someoneIsWorking = true;}}if (!someoneIsWorking) {if (!shuttingDown) {long queueLength = frontier.getQueueLength();if (queueLength > 0) {continue;}logger.info("No thread is working and no more URLs are in queue waiting for another 10 seconds to make sure...");sleep(10);queueLength = frontier.getQueueLength();if (queueLength > 0) {continue;}}

为了保险起见，再检查一下看看10个工人是不是都还活着并且在打牌。

如果是的，再检查一下URL地址库还有没有URL，如果有，则继续等10秒后再重新查。为什么要这样呢？这是为了防止低概率事件发生，比如第1个工人正在打牌，第10个刚好带着新的URL回来了，也加入打牌队伍，第1个工人正要去领URL时监工monitor来了，看到都在，以为可以收工了，实际上URL地址库还有，所以此时monitor再查一下还有没有剩余的URL没爬取。如果没有了，这时再等10秒看下是否真的没有了，防止刚刚第10个工人刚带回新URL来而错过了。

10秒后发现也没有，收工：

logger.info("All of the crawlers are stopped. Finishing the process...");// At this step, frontier notifies the// threads that were// waiting for new URLs and they should// stopfrontier.finish();for (T crawler : crawlers) {crawler.onBeforeExit();crawlersLocalData.add(crawler.getMyLocalData());}logger.info("Waiting for 10 seconds before final clean up...");sleep(10);frontier.close();docIdServer.close();pageFetcher.shutDown();finished = true;waitingLock.notifyAll();return;

这些都是收尾工作了。不过作者在这少收了一个，就是忘了把Environment close了，这导致程序不结束的话临时文件也删不掉，把Environment env变成field然后在这加上env.close()就好了。

因主线程还一直在做梦，waitingLock.notifyAll();是叫醒主线程可以结束了，下面是主线程睡觉的位置：

public void waitUntilFinish() {while (!finished) {synchronized (waitingLock) {if (finished) {return;}try {waitingLock.wait();} catch (InterruptedException e) {e.printStackTrace();}}}}

这就是一个JAVA爬虫的线程管理机制，crawler4j以一种相对比较简单但是又比较安全的方法实现了，值得借鉴。

3 0