python爬虫学习第十八天
来源:互联网 发布:qq三国js点智力 编辑:程序博客网 时间:2024/06/08 00:06
今天的内容是Scrapy,Scrapy 是一个可以帮助大幅度降低网页链接查找和识别工作复杂度的 Python 库。具体介绍请维基百科,上面很详细
首先进行了一系列的安装工作,我用的时python3,网上有教程用pip功能安装,但是实际测试后发现用pip安装完后import win32api会报错,所以最稳的方法window直接去官网下exe,这种方法是一定可以的
第一步,运行scrapy startproject wikiSpider
在当前目录中会新建一个名称也是 wikiSpider 的项目文件夹
第二部在 items.py 文件中,我们需要定义一个 Article 类,内容如下:
from scrapy import Item,Fieldclass Article(Item): title = Field() pass
第三步 在 wikiSpider/wikiSpider/spiders/ 文 件 夹 里 增 加 一 个 articleSpider.py 文件,内容如下:
class ArticleSpider(Spider): name = 'article' allowed_domains=['en.wikipedia.org'] start_urls=["http://en.wikipedia.org/wiki/Main_Page", "http://en.wikipedia.org/wiki/Python_%28programming_language%29"] def parse(self,response): item = Article() title = response.xpath('//h1/text()')[0].extract() print('Title is:'+title) item['title']=title return item pass
接下来进入wikiSpider根目录运行:scrapy crawl article就可以看到爬虫开始运作
会出现一堆信息,其中包括上面代码中我们要求输出的两行:
Title is:Main Page
Title is:Python (programming language)
这行命令会用条目名称article 来调用爬虫(不是类名,也不是文件名,而是由ArticleSpider 的 name = “article” 决定的)
书上还介绍了通过设置rule变量来定义一些规则知道 Scrapy爬取的方式。
对于scrapy书上的介绍就到这里了,后面没有涉及相关内容,今天这篇mark一下,这本书学完后可能会考虑学习scrapy
书的第三章到这里就结束了,关于scrapy,先暂且放到一边,继续后面的学习。
- python爬虫学习第十八天
- 学习python的第十八天
- python爬虫学习第八天
- python爬虫学习第二十八天
- python爬虫学习第三十八天
- python爬虫学习第十天
- python爬虫学习第十五天
- python爬虫学习第十九天
- .net学习第十八天
- Java学习第十八天
- 第十八天学习笔记
- Java学习第十八天
- 设计模式学习第十八天
- python学习---第八天
- 第十八天
- 第十八天
- 第十八天
- 黑马程序员--- 学习笔记(第十八天)
- OpenCV中的Haar+Adaboost(二):积分图和45°旋转积分图
- 浅谈Android中的Handler机制
- eclipse查看文件所在硬盘的路径
- Python 并行任务技巧
- PE文件学习笔记(二):Section Table解析
- python爬虫学习第十八天
- OpenCV中的Haar+Adaboost(三):级联分类器结构与XML文件含义
- 跳转到AppStroe
- Team them up! UVA
- 根号法、埃氏法、欧拉筛选。三种方法求素数
- 用OpenCV的VideoWriter类进行视频写/输出操作!
- 更直观的查看ctype中字符检查函数
- 学不会设计是因为你忽略了这90%的内容
- OpenCV中的Haar+Adaboost(四):利用并查集合并检测窗口(NMS)