新浪微博爬虫版本已趋于稳定,但无法参赛了

来源:互联网 发布:易语言编程圆的面积 编辑:程序博客网 时间:2024/04/27 17:00

已经收到通知,我的新浪微博爬虫Sinawler,不符合应用开发者协议,所以不能参赛。

不过我将继续完善我的新浪微博爬虫。

现在的2.2.0.3版本已经较为稳定,以现在测试的结果看,已经能够满足自用。与最初的版本相比,有以下重要改进:

1、改为了双线程同时爬取用户信息和微博及评论信息,效率更高

2、界面上提供参数设置,灵活方便

3、抛弃app.config配置文件,自己实现配置信息的加密存储,保护数据库帐号信息

4、自动调整请求频率,防止超限,也避免过慢,降低效率

5、增强对爬虫的控制,可随时暂停、继续、停止爬虫

6、改进用户体验

项目主页:http://code.google.com/p/sinawler/

未来重点改进:

提供标准的数据库脚本(现在的是针对SQL Server的,而且有冗余信息)

原创粉丝点击