Crawler中的问题

来源：互联网发布：数据分析师知乎编辑：程序博客网时间：2024/05/16 10:26

URL判重：
Larbin中使用了hashTable将访问过的URLhash到位图中，如果该bitmap中对应位置为1则认为该URL访问过。
问题在于hash映射存在冲突，所以有可能误判，将没访问过的URL认为访问。
另一解决方案是在内存中维持2个map，一个map保存待访问的URL,一个map保存已访问过的URL。启动一线程定时
已访问过的map中的URL写入URL库，然后实时查询URL库。
问题在于URL库会增大难以迅速判重

异步下载网页？

在遇到服务器重置，和网页解析错误时如何保证健壮性？

Crawler中的问题
Crawler
Nodejs crawler中的几个小疑问
开源crawler
Registry Crawler
Web Crawler
03 crawler
JAVA crawler
Crawler Basic
Web crawler
python-crawler
Heritrix Crawler vs. Nutch Crawler
Crawler学习：3.Crawler Design
Crawler学习：1.Overview of Crawler
Web crawler作业报告
crawler的关键技术
Heritrix-- 开源crawler
Nutch Crawler工作流程
hdu 4545 魔法串
2013 电影
黑马韩前成linux从入门到精通の3分钟搞定VPN服务器
（并查集+欧拉通路）
Win7笔记本电脑启用虚拟WIFI共享上网（转）
Crawler中的问题
PHPCMS V9“密码重试次数太多，请过-xxx分钟后重新登录！”的解决办法
汇编语言DEBUG命令大全
RMQ算法模板
关于面试
同花顺 tzc
HDU 4545 魔法串
2013金山西山居创意游戏程序挑战赛——初赛（1） A 魔法串
UVA 11373 Happy Birthday【计算/解析几何综合】