发布一款基于C#的网络爬虫程序
来源:互联网 发布:网络学位证有用吗 编辑:程序博客网 时间:2024/06/05 17:31
这是一款用 C# 编写的网络爬虫, 发布在:http://nwebcrawler.codeplex.com/。
主要特性有:
- 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。
- 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。
- 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。
- 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。
- 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。
参见下面的截图:
今后有空可能加入的特性:
新特性介绍爬取文件用Berkeley DB存储提高性能: 常用操作系统不善于处理大量小文件基于URL Ranking的优先级队列主题爬虫: 机器学习算法对链接与主题相关度进行评估,并按照得出的优先级顺序进行爬取爬虫礼仪遵循爬虫禁止协议、以及避免对服务器资源的过度使用等性能优化用UDP取代封装好的HttpWebRequest/ResponseDNS缓存
异步的DNS地址解析
硬盘缓存或内存数据库以避免频繁的磁盘寻道
分布式爬虫以扩展单机能力(CPU、内存和硬盘访问)
- 发布一款基于C#的网络爬虫程序
- 基于Boost::Thread库的多线程网络爬虫程序
- 基于网络爬虫的全国气温排行程序/c++
- 简易网络爬虫程序的开发(1)(c#版)
- 简易网络爬虫程序的开发(2)(c#版)
- 简易网络爬虫程序的开发(3)(c#版)
- 简易网络爬虫程序的开发(4)(c#版)
- 简易网络爬虫程序的开发(5)(c#版)
- 简易网络爬虫程序的开发(6)(c#版)
- Android网络爬虫程序(基于Jsoup)
- 基于WebKit的网络爬虫
- 基于WebKit的网络爬虫
- 基于python3的网络爬虫
- 用C#实现一个基于http的文件发布程序
- 基于C#的网络SNIFFER网络IP层监听程序
- scrapyd:基于scrapy的爬虫发布管理工具
- Larbin——一款c++编写的爬虫程序
- 基于hadoop的网络爬虫设计1.0
- 使用"增强现实"的3D绘图API来增强角色形象的活泼性
- 字符串截串处理
- 【转】ORACLE10G AWR使用和分析
- spring AOP原理
- C#的发展史
- 发布一款基于C#的网络爬虫程序
- 让Repeater显示多列的2种方法
- 软件测试工程师职业规划
- Oracle高级查询
- Sqlite3获取时间的方法
- tar gzip bzip2 常用用法总结
- 将 文本格式标记 转化为 html格式标记
- direct show媒体播放器类
- 如何知道rpm包把其中的文件安装到哪里去了?