python爬虫学习第十八天

来源:互联网 发布:qq三国js点智力 编辑:程序博客网 时间:2024/06/08 00:06

今天的内容是Scrapy,Scrapy 是一个可以帮助大幅度降低网页链接查找和识别工作复杂度的 Python 库。具体介绍请维基百科,上面很详细

首先进行了一系列的安装工作,我用的时python3,网上有教程用pip功能安装,但是实际测试后发现用pip安装完后import win32api会报错,所以最稳的方法window直接去官网下exe,这种方法是一定可以的

第一步,运行scrapy startproject wikiSpider
在当前目录中会新建一个名称也是 wikiSpider 的项目文件夹

第二部在 items.py 文件中,我们需要定义一个 Article 类,内容如下:

from scrapy import Item,Fieldclass Article(Item):    title = Field()    pass

第三步 在 wikiSpider/wikiSpider/spiders/ 文 件 夹 里 增 加 一 个 articleSpider.py 文件,内容如下:

class ArticleSpider(Spider):    name = 'article'    allowed_domains=['en.wikipedia.org']    start_urls=["http://en.wikipedia.org/wiki/Main_Page", "http://en.wikipedia.org/wiki/Python_%28programming_language%29"]    def parse(self,response):        item = Article()        title = response.xpath('//h1/text()')[0].extract()        print('Title is:'+title)        item['title']=title        return item    pass

接下来进入wikiSpider根目录运行:scrapy crawl article就可以看到爬虫开始运作
会出现一堆信息,其中包括上面代码中我们要求输出的两行:

Title is:Main Page
Title is:Python (programming language)

这行命令会用条目名称article 来调用爬虫(不是类名,也不是文件名,而是由ArticleSpider 的 name = “article” 决定的)

书上还介绍了通过设置rule变量来定义一些规则知道 Scrapy爬取的方式。
对于scrapy书上的介绍就到这里了,后面没有涉及相关内容,今天这篇mark一下,这本书学完后可能会考虑学习scrapy

书的第三章到这里就结束了,关于scrapy,先暂且放到一边,继续后面的学习。

原创粉丝点击