python爬虫学习第十八天

来源：互联网发布：qq三国js点智力编辑：程序博客网时间：2024/06/08 00:06

今天的内容是Scrapy，Scrapy 是一个可以帮助大幅度降低网页链接查找和识别工作复杂度的 Python 库。具体介绍请维基百科，上面很详细

首先进行了一系列的安装工作，我用的时python3，网上有教程用pip功能安装，但是实际测试后发现用pip安装完后import win32api会报错，所以最稳的方法window直接去官网下exe，这种方法是一定可以的

第一步，运行scrapy startproject wikiSpider
在当前目录中会新建一个名称也是 wikiSpider 的项目文件夹

第二部在 items.py 文件中，我们需要定义一个 Article 类，内容如下：

from scrapy import Item,Fieldclass Article(Item):    title = Field()    pass

第三步在 wikiSpider/wikiSpider/spiders/ 文件夹里增加一个 articleSpider.py 文件，内容如下：

class ArticleSpider(Spider):    name = 'article'    allowed_domains=['en.wikipedia.org']    start_urls=["http://en.wikipedia.org/wiki/Main_Page", "http://en.wikipedia.org/wiki/Python_%28programming_language%29"]    def parse(self,response):        item = Article()        title = response.xpath('//h1/text()')[0].extract()        print('Title is:'+title)        item['title']=title        return item    pass

接下来进入wikiSpider根目录运行：scrapy crawl article就可以看到爬虫开始运作
会出现一堆信息，其中包括上面代码中我们要求输出的两行：

Title is:Main Page
Title is:Python (programming language)

这行命令会用条目名称article 来调用爬虫（不是类名，也不是文件名，而是由ArticleSpider 的 name = “article” 决定的）

书上还介绍了通过设置rule变量来定义一些规则知道 Scrapy爬取的方式。
对于scrapy书上的介绍就到这里了，后面没有涉及相关内容，今天这篇mark一下，这本书学完后可能会考虑学习scrapy

书的第三章到这里就结束了，关于scrapy，先暂且放到一边，继续后面的学习。

阅读全文

0 0