C#.NET网络蜘蛛设计模式
来源:互联网 发布:linux文本退出命令 编辑:程序博客网 时间:2024/06/09 19:56
列表:
1.搜集蜘蛛引擎开发信息。
2.建立UrlTreeNode(URL索引树),HashTable(哈希表)保存相关键值,XML数据交换BUFF。
3.算法选择:单线程选用DFS(深度优先),多线程选用BFS(广度优先),视情况而定。
4.相关数据处理:
(1) 读取URL:读取当前URL,分析链接(1/0),进入UnVisited.xml/Visited.xml。
(2) 处理URL:读取UnVisited.xml,返回(1)。
(3) 直到UnVisited.xml为空,否则(2)。
(4) 索引树的建立:与(2)同时进行(仅针对BFS算法)。
5.算法实现:
BFS:
Begin Visit index:
ClientPage:=index
Push ClientPage into the end of UnVisited table
While UnVisited 非空then
ClientPage:=UnVisited.top
Visit ClientPage
UnVisited.pop
Push ClientPage into Visited
End while
End begin
DFS:
Begin:
Build new Vector[] of self collections : url(二维)
ClientPage:=index
Push ClientPage into the header of Unvisited talbe
While UnVisited 非空then
ClientPage:=UnVisited.top
Visit ClientPage
UnVisited.pop
Push ClientPage into Visited
End while
End begin
6.处理规则以及存储方式:
抓取当前网页,经过字符串(正则表达式)处理后,去除HTML标记,空格,换行, 等标记,以及标记内部信息。保存文本。
考虑到URL->关键字->文本的处理路径。
使用XML存储相关项或数据库关键字插入(信息量可能过大,造成冗余)。
7.检索过程:
根据提交关键字和查找项目,遍历XML或数据库相关字段,将信息保存自HASH表中,或DATAGRID,然后根据自定义“排序算法”进行排序和统计。
返回处理结果。
1.搜集蜘蛛引擎开发信息。
2.建立UrlTreeNode(URL索引树),HashTable(哈希表)保存相关键值,XML数据交换BUFF。
3.算法选择:单线程选用DFS(深度优先),多线程选用BFS(广度优先),视情况而定。
4.相关数据处理:
(1) 读取URL:读取当前URL,分析链接(1/0),进入UnVisited.xml/Visited.xml。
(2) 处理URL:读取UnVisited.xml,返回(1)。
(3) 直到UnVisited.xml为空,否则(2)。
(4) 索引树的建立:与(2)同时进行(仅针对BFS算法)。
5.算法实现:
BFS:
Begin Visit index:
ClientPage:=index
Push ClientPage into the end of UnVisited table
While UnVisited 非空then
ClientPage:=UnVisited.top
Visit ClientPage
UnVisited.pop
Push ClientPage into Visited
End while
End begin
DFS:
Begin:
Build new Vector[] of self collections : url(二维)
ClientPage:=index
Push ClientPage into the header of Unvisited talbe
While UnVisited 非空then
ClientPage:=UnVisited.top
Visit ClientPage
UnVisited.pop
Push ClientPage into Visited
End while
End begin
6.处理规则以及存储方式:
抓取当前网页,经过字符串(正则表达式)处理后,去除HTML标记,空格,换行,
考虑到URL->关键字->文本的处理路径。
使用XML存储相关项或数据库关键字插入(信息量可能过大,造成冗余)。
7.检索过程:
根据提交关键字和查找项目,遍历XML或数据库相关字段,将信息保存自HASH表中,或DATAGRID,然后根据自定义“排序算法”进行排序和统计。
返回处理结果。
- C#.NET网络蜘蛛设计模式
- 基于C#.NET的网络蜘蛛设计计划
- 用 C 语言编写一个网络蜘蛛
- 用 C 语言编写一个网络蜘蛛
- 用 C 语言编写一个网络蜘蛛
- 用 C 语言编写一个网络蜘蛛
- 网络蜘蛛
- 网络蜘蛛
- 网络蜘蛛
- .NET(c#)设计模式合集
- 蜘蛛爬虫网络高像素图片抓取工具[ZSpider.NET]
- 网络蜘蛛程序的设计与实现 (一)前言
- [转]用 C 语言编写一个网络蜘蛛
- [转]用 C 语言编写一个网络蜘蛛
- [转]用 C 语言编写一个网络蜘蛛
- 网络蜘蛛的秘密
- 网络蜘蛛简介
- 网络蜘蛛基础件
- javascript函数大全
- 如何實現审核的灵活化,即同一单位不同的客户可以实现单级审核,二级审核,多级审核呢?
- 网站导航应用
- 偏头痛
- 认识ASP.NET配置文件Web.config
- C#.NET网络蜘蛛设计模式
- java 得到cookies 利便方法
- 安装vs2005sp1补丁注意事项
- 一篇好文,以在迷茫时阅读
- about vector
- 4.15 资料清理 没做的代码
- html下使用xml
- ORACLE数据库备份与恢复详解
- sql server 存储过程语法 知识积累