【搜索引擎Jediael开发笔记】v0.1完整代码
来源:互联网 发布:mac虚拟机安装教程win7 编辑:程序博客网 时间:2024/05/05 17:53
详细代码请见
E:\Project\【重要】归档代码\SearchEngine归档代码
或
https://code.csdn.net/jediael_lu/jediael/tree/10991c839c51d32f825708b09451b2618a20ee94
或
http://download.csdn.net/detail/jediael_lu/7402827
本版本完成以下功能:
(1)创建用于保存种子URL的配置文件及其数据结构
(2)创建用于保存Todo信息(未下载URL)的数据结构
(3)创建用于保存Visited信息(已下载的URL)的数据结构
(4)下载网页时同步更新Tode与Visited。下载网页前,判断某个网页是否已经下载过。
(5)从上述第3步下载的网页抽取链接并继续下载,直到Todo列表为空。
(6)为每个种子url创建一个独立的线程。
至此,搜索引擎已具体基本功能。
下一阶段工作:
(1)引入dao,使用数据库保存一些信息,如种子url等?
(2)使用Berkey DB保存Frontier?使用布隆过滤器保存已访问的url。
(3)继续学习后面内容,引入其它内容。如访问blog.csdn.net时,返回403。
1、创建用于保存种子url的数据结构
由于一般而言,种子url的数据量均小,因此先使用PriorityQueue,以图方便,今后视应用情况修改成其它数据结构。
package org.ljh.search.frontier;import java.util.PriorityQueue;public class SeekUrlQueue {//保存种子url的队列。由于一般而言,种子url的数据量均小,因此先使用PriorityQueue,以图方便,今后视应用情况修改成其它数据结构。private PriorityQueue<String> seekUrlQueue = new PriorityQueue<String>();//Getterpublic PriorityQueue<String> getSeekUrlQueue() {return seekUrlQueue;}//将url添加至种子url队列中public boolean add(String url){return seekUrlQueue.add(url);}//判断种子url队列是否为空public boolean isEmpty(){return seekUrlQueue.isEmpty();}//从种子url队列中获取下一个种子urlpublic String getNext(){return seekUrlQueue.poll();}}
2、创建用于保存已访问url的数据结构
(1)先创建一个接口,用于提供最基本功能
package org.ljh.search.frontier;public interface VisitedUrlQueue {//判断某个Url是否已经存在于已访问队列中public boolean contains(String url);//将已下载的url放入已访问的列表public boolean add(String url);}
(2)创建具体的实施类
package org.ljh.search.frontier;import java.util.HashSet;public class HashSetVisitedUrlQueue implements VisitedUrlQueue{//用于保存已访问的Url的数据结构。由于已访问列表会被经常查询,因此,使用HashSet。由于只要其中任何一个线程下载过,此url即算做已经下载,因此使用了static。private static HashSet<String> visitedUrlQueue = new HashSet<String>();public HashSet<String> getVisitedUrlQueue() {return visitedUrlQueue;}@Overridepublic boolean contains(String url) {return visitedUrlQueue.contains(url);}@Overridepublic boolean add(String url) {visitedUrlQueue.add(url);return true;}}
3、创建待访问的url列表的数据结构
(1)先创建接口
package org.ljh.search.frontier;public interface Frontier {//获取下一个待访问的urlpublic String getNextUrl();//将从其它网页中提取出来的url放到待访问url中。public boolean putUrlIntoTodoQueue(String url);}
(2)创建具体实现类
package org.ljh.search.frontier;import java.util.PriorityQueue;public class PriorityQueueFrontier implements Frontier {//保存待访问的url的列表。考虑到先入先出及可在一定程度上控制访问顺序,即带偏好的宽度优先搜索策略,使用了PriorityQueue。private PriorityQueue<String> todoUrlQueue = new PriorityQueue<String>();@Overridepublic String getNextUrl() {return todoUrlQueue.poll();}@Overridepublic boolean add(String url) {todoUrlQueue.add(url);return true;}@Overridepublic boolean isEmpty(){return todoUrlQueue.isEmpty();}}
4、修改主类
(1)下载网页前,判断某个网页是否已经下载过。
(2)分析刚下载的网页,提取链接,继续放入frontier。
(3)为每个种子url创建一个独立的线程。
package org.ljh.search;import java.io.IOException;import java.util.Iterator;import java.util.Set;import org.ljh.search.downloadpage.PageDownloader;import org.ljh.search.frontier.HashSetVisitedUrlQueue;import org.ljh.search.frontier.PriorityQueueFrontier;import org.ljh.search.frontier.SeekUrlQueue;import org.ljh.search.html.HtmlParserTool;import org.ljh.search.html.LinkFilter;public class MyCrawler {public static void main(String[] args) {// 种子urlfinal SeekUrlQueue seekUrlQueue = new SeekUrlQueue();seekUrlQueue.add("http://www.sohu.com");seekUrlQueue.add("http://www.baidu.com");seekUrlQueue.add("http://www.eoeandroid.com/");// 已访问过的urlfinal HashSetVisitedUrlQueue visitedUrl = new HashSetVisitedUrlQueue();// 设定过滤器,用于指明搜索范围final LinkFilter linkFilter = new LinkFilter() {@Overridepublic boolean accept(String url) {if ((url.contains("baidu") || url.contains("sohu")||url.contains("eoe"))&& !url.contains("baike") && !url.contains("@")) {return true;} else {return false;}}};while (!seekUrlQueue.isEmpty()) {// 根据种子url对frontier进行初始化final String nextSeek = seekUrlQueue.getNext();System.out.println(nextSeek);//为每一个种子url,启动一个线程Thread t = new Thread(new Runnable() {@Overridepublic void run() {// 待访问 的urlPriorityQueueFrontier frontier = new PriorityQueueFrontier();frontier.add(nextSeek);//直到frontier为空,才会结束下载while (!frontier.isEmpty()) {//获取下一个待访问的url,然后判断是否已经访问过,若否,则下载,并将其添加到已访问列表。String nextUrl = frontier.getNextUrl();if (!visitedUrl.contains(nextUrl)) {try {PageDownloader.downloadPageByGetMethod(nextUrl);} catch (IOException e) {e.printStackTrace();}visitedUrl.add(nextUrl);//从刚下载的页面中提取链接,并将其放入frointier.正常而言,应该使用刚下载到本地的文件作参数,但此处还是使用了url,会导致再一次连接网络。Set<String> urlSet = HtmlParserTool.extractLinks(nextUrl, linkFilter);Iterator<String> iterator = urlSet.iterator();while (iterator.hasNext()) {frontier.add(iterator.next());}}}}});t.start();}}}
- 【搜索引擎Jediael开发笔记】V0.1完整代码
- 【搜索引擎Jediael开发笔记】v0.1完整代码
- 【搜索引擎Jediael开发笔记】V0.1完整代码
- 【搜索引擎Jediael开发笔记】v0.1完整代码
- 【搜索引擎Jediael开发4】V0.01完整代码
- 【搜索引擎Jediael开发4】V0.01完整代码
- 【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫
- 【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫
- 【搜索引擎Jediael开发笔记2】使用HttpClient下载网页至本地文件
- 【搜索引擎Jediael开发笔记3】使用HtmlParser提取网页中的链接
- 【搜索引擎Jediael开发笔记2】使用HttpClient下载网页至本地文件
- 【搜索引擎Jediael开发笔记3】使用HtmlParser提取网页中的链接
- 搜索引擎开发笔记一
- 搜索引擎开发笔记二
- 搜索引擎开发笔记三
- UIAutomator学习笔记V0.1
- 软件开发规范 v0.1
- JS远程监测代码V0.1
- String, StringBuilder 与StringBuffer的区别与联系
- 关于serialVersionUID的说明
- NSIS 自定义安装界面准确获取安装进度完美解决方案
- 【搜索引擎Jediael开发笔记】V0.1完整代码
- jsoup:解析HTML用法小结
- 【搜索引擎Jediael开发笔记】v0.1完整代码
- Berkeley DB基础教程
- tty驱动框架分析
- 【Heritrix基础教程之1】在Eclipse中配置Heritrix
- 机房流程图
- 【Heritrix基础教程之2】Heritrix基本内容介绍
- Eclipse 快捷键大全
- 【Heritrix基础教程之3】Heritrix的基本架构
- 【Heritrix基础教程之4】开始一个爬虫抓取的全流程代码分析