新浪微博爬虫版本已趋于稳定,但无法参赛了
来源:互联网 发布:易语言编程圆的面积 编辑:程序博客网 时间:2024/04/27 17:00
已经收到通知,我的新浪微博爬虫Sinawler,不符合应用开发者协议,所以不能参赛。
不过我将继续完善我的新浪微博爬虫。
现在的2.2.0.3版本已经较为稳定,以现在测试的结果看,已经能够满足自用。与最初的版本相比,有以下重要改进:
1、改为了双线程同时爬取用户信息和微博及评论信息,效率更高
2、界面上提供参数设置,灵活方便
3、抛弃app.config配置文件,自己实现配置信息的加密存储,保护数据库帐号信息
4、自动调整请求频率,防止超限,也避免过慢,降低效率
5、增强对爬虫的控制,可随时暂停、继续、停止爬虫
6、改进用户体验
项目主页:http://code.google.com/p/sinawler/
未来重点改进:
提供标准的数据库脚本(现在的是针对SQL Server的,而且有冗余信息)
- 新浪微博爬虫版本已趋于稳定,但无法参赛了
- 新浪微博爬虫
- 新浪微博爬虫策略
- Python新浪微博爬虫
- python新浪微博爬虫
- 利用python实现新浪微博爬虫
- C#编写新浪微博话题爬虫
- 利用python实现新浪微博爬虫 .
- [Javascript] 爬虫 模拟新浪微博登陆
- Python新浪微博爬虫程序
- Python爬虫 -- 登陆新浪微博
- 新浪微博分布式爬虫分享
- Python-新浪微博爬虫采集数据
- 新浪微博评论爬虫小DEMO
- selenium phantomjs 实现新浪微博爬虫
- 新浪微博爬虫v1.0
- python编写的新浪微博爬虫
- 新浪微博美女图片的爬虫
- Ubuntu10.10安装Playframework
- MICRO2440裸跑之按键点亮LED 、按键、蜂鸣器
- jQuery API
- 走向远方
- 很高兴
- 新浪微博爬虫版本已趋于稳定,但无法参赛了
- XP,Vista&Win7中Cookie的路径
- Introduce of design pattern
- platform总线 学习
- 大洋蛋...奇遇...倒数342....
- 但又并非仅此而已
- iPad半年使用心得
- GridView控件的DataKeyNames
- 一些url和参考书籍