Scrapy爬虫（2）爬取新浪旅游图片

来源：互联网发布：手机信号干扰软件编辑：程序博客网时间：2024/04/28 08:57

　　本次分享将展示如何利用Scrapy爬取网页中的图片。爬取的网页如下：
　　这里写图片描述
　　首先建立sina_trip项目：

scrapy startproject sina_trip

在settings.py中，添加如何代码：

ITEM_PIPELINES = {'scrapy.pipelines.images.ImagesPipeline': 1}IMAGES_URLS_FIELD = 'url'IMAGES_STORE = r'.'

items.py中的代码如下：

import scrapyclass SinaTripItem(scrapy.Item):    url  = scrapy.Field()

之后在spiders文件夹下新建文件sina_trip_spider.py，代码如下：

import scrapyfrom scrapy.spiders import Spider  from scrapy.selector import Selector  from sina_trip.items import SinaTripItem  class sinaTripSpider(Spider):      name = "sinaTripSpider"    #name of Spider      start_urls = ["http://travel.sina.com.cn/"]  #start url     def parse(self, response):   #parse function        item = SinaTripItem()        sel = Selector(response)        sites = sel.xpath("//img/@src").extract()   #extract url of pictures        for site in sites:             item['url'] = ['http:'+site]            yield item

在终端输入命令：

scrapy crawl sinaTripSpider

运行结果如下：
这里写图片描述
运行完后，在spiders文件夹下会多出full文件夹，这是图片下载后保存的地址：

full里面的图片如下：

Bingo，我们的图片爬虫也成功啦~~
本文的GitHub地址如下，欢迎大家访问：https://github.com/jclian91/scrapy-for-sina_trip-

本次分享到此结束，欢迎大家批评与交流~~

阅读全文

0 0