Crawler中的问题

来源:互联网 发布:数据分析师知乎 编辑:程序博客网 时间:2024/05/16 10:26

URL判重:
Larbin中使用了hashTable将访问过的URLhash到位图中,如果该bitmap中对应位置为1则认为该URL访问过。
问题在于hash映射存在冲突,所以有可能误判,将没访问过的URL认为访问。
另一解决方案是在内存中维持2个map,一个map保存待访问的URL,一个map保存已访问过的URL。启动一线程定时
已访问过的map中的URL写入URL库,然后实时查询URL库。
问题在于URL库会增大难以迅速判重


异步下载网页?


在遇到服务器重置,和网页解析错误时如何保证健壮性?