C语言爬虫

来源:互联网 发布:js编码 编辑:程序博客网 时间:2024/05/09 06:49

C语言并行爬虫(epoll),爬取服务器的16W个有效网页,通过爬取页面源代码进行确定性自动机匹配和布隆过滤器去重,对链接编号并写入url.txt文件,并通过中间文件和三叉树去除掉状态码非200的链接关系,因为匹配出来的链接不全都在服务器中,最后将正确的链接关系继续写入url.txt


源代码链接:

http://download.csdn.net/download/lncer7/10141454

原创粉丝点击