动态爬虫[闲谈1]
来源:互联网 发布:淘宝店铺扣分24分 编辑:程序博客网 时间:2024/05/29 16:13
开题介绍~
打算开一个“闲谈”专题,定期(不定期?)收录一些自己觉得有趣的题,记录解题过程~
本期题目
一共有十个时刻变化的页面,他们的更新频率不尽相同,需要给出这十个页面的频率排序
来源:千里码 → 传送门
正经
分析题目,大概就是需要做两件事情:比对页面是否相同、调整爬取频率
需要比对同一页面差别的话,那可以考虑计算整个页面的md5值,这样就可以直接看出差别。谈优化的话,我觉得可以去除所有对人眼识别不相关的元素之后进行md5,比如页面空格。
爬取频率调整,感觉可以考虑参考TCP拥塞控制那样,初期成倍增长,当页面变化时停止成倍增长,转而变成1.1倍的增和减。
十个页面的话,开十个进程嘛,妥妥的:p 然后就放着跑等结果吧,2333
闲谈
感觉爬虫的频率适配是个不错的想法,每个页面使用不同的频率爬取,节约资源。不过对于垂直爬虫这一类别,个人感觉还是不适用,还是根据网站量级制定频率比较稳妥= =
诶,这么想的话,垂直爬虫只要能够制定一个网站的判重规则不就行了么,嘿嘿= =哇,这能怎么做。。。。。。
本期代码链接 → 传送门
阅读全文
0 0
- 动态爬虫[闲谈1]
- 闲谈动态规划
- 闲谈计算机系统(1)
- 闲谈计算机系统(1)
- 闲谈
- 闲谈
- 闲谈
- 闲谈
- 闲谈
- 闲谈
- 闲谈
- 闲谈
- 闲谈
- 闲谈
- 闲谈
- 闲谈
- 闲谈
- 闲谈
- spring maven
- PAT考试乙级1045(C语言实现)重点题目(思路)
- Android中的AsyncTask(异步任务)和接口回调使用详解
- Java面试题全集上
- MariaDB忘记root密码
- 动态爬虫[闲谈1]
- Qt--日志
- Java单例模式--产生固定数量的实例学习笔记
- ccf-2016-09-4-交通规划
- Unity游戏引擎挖坑记之3d游戏2d显示管理(血条、飘血)(一)
- 设计模式—代理模式
- fastjson 过滤掉多余的字段
- CodeForces 893C Rumor
- SSH免密码登录