python爬虫工具及最佳实践

来源:互联网 发布:淘宝客优惠券怎么推广 编辑:程序博客网 时间:2024/06/06 00:07

爬虫工具及框架

scrapy

请参阅最新文档--文档1.0版

distribute_crawler

使用scrapy,redis, mongodb,graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现, 爬虫状态显示使用graphite实现。

portia

这是一个使用Web界面的爬虫工具,也是基于Scrapy.

pyspider

可自定义脚本进行爬虫,见demo.


最佳实践

知乎--能利用爬虫技术做到哪些很酷很有趣很有用的事情?

zhihu-python

获取知乎内容信息,包括问题,答案,用户,收藏夹信息 .

zhihu-spider

获取知乎最热问题—知乎Hot.


其它实践

监测她(他)的知乎

监测她(他)的知乎,她关注、回答、赞了某个问题立马电脑和手机都弹出提示.使用c#开发,详情见-- 被管理员和谐了的最高票答案“知乎数据抓取程序”.

1 0
原创粉丝点击