爬虫笔记(10/2)------爬虫框架

来源:互联网 发布:阿里云合作伙伴事业部 编辑:程序博客网 时间:2024/06/03 17:43

常见的爬虫框架:

1)Scrapy

http://scrapy.org/

2)Crawley

http://project.crawley-cloud.com/

主要特点:1.高速爬取内容2.内容存储在关系型数据库中(Postgres,MySQL,Oracle,SQLite等)3.数据导出为JSON,XML格式4.支持非关系型数据库(MongoDB,CouchDB等)5.支持使用命令行工具6.用工具提取数据7.支持cookie登录

3)Portia

https://github.com/scrapinghub/portia/

4)newspaper

https://github.com/codelucas/newspaper

5)python-goose

https://github.com/grangier/python-goose

原创粉丝点击