Scrapy爬虫(2)爬取新浪旅游图片

来源:互联网 发布:手机信号干扰软件 编辑:程序博客网 时间:2024/04/28 08:57

  本次分享将展示如何利用Scrapy爬取网页中的图片。爬取的网页如下:
  这里写图片描述
  首先建立sina_trip项目:

scrapy startproject sina_trip

在settings.py中,添加如何代码:

ITEM_PIPELINES = {'scrapy.pipelines.images.ImagesPipeline': 1}IMAGES_URLS_FIELD = 'url'IMAGES_STORE = r'.'

items.py中的代码如下:

import scrapyclass SinaTripItem(scrapy.Item):    url  = scrapy.Field()

之后在spiders文件夹下新建文件sina_trip_spider.py,代码如下:

import scrapyfrom scrapy.spiders import Spider  from scrapy.selector import Selector  from sina_trip.items import SinaTripItem  class sinaTripSpider(Spider):      name = "sinaTripSpider"    #name of Spider      start_urls = ["http://travel.sina.com.cn/"]  #start url     def parse(self, response):   #parse function        item = SinaTripItem()        sel = Selector(response)        sites = sel.xpath("//img/@src").extract()   #extract url of pictures        for site in sites:             item['url'] = ['http:'+site]            yield item

在终端输入命令:

scrapy crawl sinaTripSpider

运行结果如下:
这里写图片描述
运行完后,在spiders文件夹下会多出full文件夹,这是图片下载后保存的地址:
这里写图片描述
full里面的图片如下:
这里写图片描述
Bingo,我们的图片爬虫也成功啦~~
本文的GitHub地址如下,欢迎大家访问:https://github.com/jclian91/scrapy-for-sina_trip-



本次分享到此结束,欢迎大家批评与交流~~