python第三方爬虫开源库scrapy学习笔记
来源:互联网 发布:知乎登录注册页面实现 编辑:程序博客网 时间:2024/06/06 04:49
官方下载地址
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。
//安装教程很简单,我采用PIP命令安装
pip install scrapy
或者直接下载对应系统平台和python对应版本,安装即可(不会的自行百度)
我在windows 平台运行提示缺少import win32api库。记得自己没有下载这个安装。
Python for Windows Extensions
官方下载地址
本次测试抓取python官方第三方库插件列表,其它网站类似,关键在于自行分析匹配规则。
//代码不多就这几十行
#test okimport scrapyclass PypiPythonSpider(scrapy.Spider): name = "python-demo" allowed_domains = ["python.org"] start_urls = ["https://pypi.python.org/pypi"] def parse(self, response): for sel in response.xpath('//tr[@class]').extract(): #sel.xpath('//td//@href').extract() print'item \n' yield {"info1": sel}
抓取格式如这样列表
example:https://pypi.python.org/pypi
<tr class="even"><td style="white-space: nowrap; text-align: center;">2016-05-25</td><td><a href="/pypi/django-rescuests/0.2.3">django-rescuests\xa00.2.3</a></td><td>A framework sending, tracking and retrying REST requests in Django.</td></tr>
也可以支持文件导出,参数比较多,自行学习。
scrapy runspideer main.py --outfile file
包括详细输出日志和记录
0 0
- python第三方爬虫开源库scrapy学习笔记
- python爬虫框架scrapy学习笔记
- python爬虫框架scrapy学习笔记
- 我的Python学习笔记(6) 初探网络爬虫scrapy
- python爬虫 scrapy框架学习
- python学习笔记 常用第三方模块
- 【Python学习笔记】第三方模块
- [Python]第三方库-Scrapy入门使用
- 爬虫学习笔记-Scrapy初识
- 爬虫学习笔记-Scrapy散记
- Python学习笔记-----Scrapy
- python爬虫笔记 --------scrapy框架(1)
- python爬虫笔记 --------scrapy框架(2)
- python爬虫笔记 --------scrapy框架(3)
- python爬虫笔记 --------scrapy框架(4)
- python爬虫常用第三方库
- 【爬虫学习笔记】scrapy学习思考
- Python网络爬虫框架scrapy的学习
- MySQL之innodb数据库引擎
- 杭电2844
- poj 1036 Gangsters lis
- 圆形ImageView
- 23种设计模式(10):命令模式
- python第三方爬虫开源库scrapy学习笔记
- opencv在visual studio的配置技巧
- Xcode自动填充方法插件:AMMethod2Implement
- 51NOD 1003 阶乘后面0的数量(一个思维的题目)
- sql中drop、truncate和delete的区别
- jzoj1115 GT考试
- python switch 实现
- 俄罗斯方块游戏软件 : C语言初步应用感受
- 《矩阵》——稀疏矩阵(Java)