爬虫学习:scrapy相关的知识
来源:互联网 发布:iapp免杀源码 编辑:程序博客网 时间:2024/06/05 18:19
Scrapy 是开源的爬虫框架,快速强大,只需要写少量的代码即可完成爬取任务,容易扩展,添加新的功能模块
1. scrapy 在Mac上的安装
可以使用pip安装Scrapy
运行命令 sudo pip install Scrapy(不带sudo 可能会出现 Permission denied)
然后 使用scrapy –version来验证是否安装成功
2. Scrapy的使用步骤
创建工程
scrapy startprohect project-name
上面的命令会自动生成project-name的项目,并且生成部分相应的文件scrapy genspider project_name_spider https://www.baidu.com
上面的命令会自动生成一个标准的spider的模版,后面的网址一定要加上,之后就可以修改相应的文件编写相应的item,就可以了,定义Item,构造爬取的对象
定义Item的时候使用scrapy.Field()来定义item编写spider,爬虫主体
编写配置和Pipeline,用于处理爬取的结果
执行爬虫、
scrapy crawl project_name_spider 用于执行该爬虫在编写Pipeline的时候,主要是用于处理爬取的结果,可以存储在相应的文件中,而且格式比较固定,下面给一个将结果存储在csv的文件中的列子。
class ProjectItemCsvPipeline(object): def open_spider(self, spider): self.file = open('project_record.csv', 'wb') self.exporter = CsvItemExporter(self.file) self.exporter.start_exporting() def close_spider(self, spider): self.exporter.finish_exporting() self.file.close() def process_item(self, item, spider): self.exporter.export_item(item) return item
在写完spinder的主题之后需要修改一下,setting.py文件中的内容将下面这一行的注释去掉
ITEM_PIPELINES = { 'project.pipelines.ProjectItemCsvPipeline': 300,}
在调试的时候可以使用scrapy shell url 来进入shell界面调试,并且测试其中的代码是否正确
- 爬虫学习:scrapy相关的知识
- Python 爬虫学习 —— Scrapy 入门知识学习
- Python网络爬虫框架scrapy的学习
- 学习安装python的Scrapy爬虫框架
- Scrapy 爬虫学习
- scrapy爬虫学习
- 学会爬虫需要的相关知识积累
- 爬虫 scrapy 框架学习 1. Scrapy框架业务逻辑的理解 + 简单爬虫案例示范
- Scrapy爬虫的尝试
- scrapy爬虫学习系列四:portia的学习入门
- 爬虫之Scrapy框架知识总结
- scrapy爬虫必需品--------xpath学习
- 爬虫学习之Scrapy构建
- 爬虫学习笔记-Scrapy初识
- 爬虫学习笔记-Scrapy散记
- Scrapy 爬虫 个人学习经验
- scrapy爬虫学习备忘录(1)
- python爬虫 scrapy框架学习
- POJ 1846 System 笔记
- 从终端输入一个字符,比如是F,要求只能输出大写字母。 打印出以下格式: F *FE **FED ***FEDC ****FEDCB *****FEDCBA
- 剑指offer——顺时针打印矩阵
- linux 内核—进程的地址空间(1)
- 几个非常好的opencv教程【持续更新】
- 爬虫学习:scrapy相关的知识
- 二叉树c语言实现 bittree.h 和 bittree.h
- Redis缓存的具体使用场景
- C语言杨辉三角
- 174删除链表中倒数第n个节点
- jQuery源码阅读(七)--init()遗留部分buildFragment()函数
- css动画之animation
- SSM框架——详细整合教程(Spring+SpringMVC+MyBatis)
- Activity的生命周期笔记