NCrawler 开源爬虫框架学习
来源:互联网 发布:广电网络云平台 编辑:程序博客网 时间:2024/05/17 18:45
开源爬虫的框架很多,不过对于使用者来说最最简单的应该是 NCrawler了。
该框架是基于C# 语言的。 依据其demo 代码,即使未学习过c# ,也可以在10分钟内生成属于自己的爬虫代码。
只需要将下面的uri替换为你需要的uri即可。
using (Crawler c = new Crawler(new Uri("http://blog.csdn.net/"),
new HtmlDocumentProcessor(), // Process html
//new iTextSharpPdfProcessor.iTextSharpPdfProcessor(), // Add PDF text extraction
// new GoogleLanguageDetection(), // Add language detection
//new Mp3FileProcessor(), // Add language detection
new DumperStep())
{
// Custom step to visualize crawl
MaximumThreadCount = 2,
MaximumCrawlDepth = 6,
//ExcludeFilter = Program.ExtensionsToSkip,
})
{
// Begin crawl
c.Crawl();
}
0 0
- NCrawler 开源爬虫框架学习
- NCrawler 开源爬虫框架学习
- C#开源爬虫NCrawler源代码解读以及将其移植到python3.2(1)
- C#开源爬虫NCrawler源代码解读以及将其移植到python3.2(2)
- C#开源爬虫NCrawler源代码解读以及将其移植到python3.2(4)
- C#开源爬虫NCrawler源代码解读以及将其移植到python3.2(3)
- C#开源爬虫NCrawler源代码解读以及将其移植到python3.2(5)(selenium登场)
- NCrawler爬虫在应用中一些问题
- 开源爬虫框架
- WebMagic 爬虫框架学习
- 爬虫框架的学习
- WebMagic爬虫框架学习
- Python爬虫之框架学习
- python爬虫 scrapy框架学习
- python 网络爬虫开源框架scrapy
- Gecco开源爬虫框架入门
- Java开源爬虫框架crawler4j
- 爬虫学习(三) Scrapy框架入门与豆瓣电影爬虫
- 面试题
- Leetcode Array题型总结
- 猴子分桃
- 读《钝感力》有感
- Codeforces Round #340 (Div. 2):B. Chocolate
- NCrawler 开源爬虫框架学习
- 1000个赞的《快乐码农》
- ZIP压缩算法详细分析及解压实例解释
- c3p0详细配置
- POJ 2421 Constructing Roads
- poj1852
- 常用的字符串哈希函数
- RPM基本使用指南
- POJ 1789 (最小生成树之Kruskal算法)