Scrapy爬虫(2)爬取新浪旅游图片
来源:互联网 发布:手机信号干扰软件 编辑:程序博客网 时间:2024/04/28 08:57
本次分享将展示如何利用Scrapy爬取网页中的图片。爬取的网页如下:
首先建立sina_trip项目:
scrapy startproject sina_trip
在settings.py中,添加如何代码:
ITEM_PIPELINES = {'scrapy.pipelines.images.ImagesPipeline': 1}IMAGES_URLS_FIELD = 'url'IMAGES_STORE = r'.'
items.py中的代码如下:
import scrapyclass SinaTripItem(scrapy.Item): url = scrapy.Field()
之后在spiders文件夹下新建文件sina_trip_spider.py,代码如下:
import scrapyfrom scrapy.spiders import Spider from scrapy.selector import Selector from sina_trip.items import SinaTripItem class sinaTripSpider(Spider): name = "sinaTripSpider" #name of Spider start_urls = ["http://travel.sina.com.cn/"] #start url def parse(self, response): #parse function item = SinaTripItem() sel = Selector(response) sites = sel.xpath("//img/@src").extract() #extract url of pictures for site in sites: item['url'] = ['http:'+site] yield item
在终端输入命令:
scrapy crawl sinaTripSpider
运行结果如下:
运行完后,在spiders文件夹下会多出full文件夹,这是图片下载后保存的地址:
full里面的图片如下:
Bingo,我们的图片爬虫也成功啦~~
本文的GitHub地址如下,欢迎大家访问:https://github.com/jclian91/scrapy-for-sina_trip-
本次分享到此结束,欢迎大家批评与交流~~
阅读全文
0 0
- Scrapy爬虫(2)爬取新浪旅游图片
- 利用scrapy爬取新浪体育上的图片
- scrapy爬虫爬取旅游问答网站,递归爬取下一页
- Scrapy爬取图片
- scrapy爬取图片
- scrapy爬取图片
- python 爬虫——scrapy框架爬取新浪娱乐文本初探
- Scrapy爬取百度图片(一)
- Scrapy爬取百度图片(二)
- Scrapy爬取新浪天气问题
- Scrapy爬虫 (1)爬取菜鸟Git教程目录
- Python 爬取蚂蜂窝旅游攻略 (+Scrapy框架+MySQL)
- Scrapy之图片爬取。
- Scrapy爬取图片资源
- 使用python网络爬虫爬取新浪新闻(一)
- Scrapy 爬虫框架爬取网页数据
- scrapy定制爬虫-爬取javascript内容
- 爬虫第五战 scrapy小说爬取
- 7-如何解析爬虫爬取回来的数据
- [Machine Learning] 梯度下降法的三种形式BGD、SGD以及MBGD
- 第四周项目2建设“单链表”算法库
- BZOJ1303(CQOI2009)[中位数图]--奇技淫巧
- Impala在国双的使用(二):AIOps在Impala mem_limit调优的实践
- Scrapy爬虫(2)爬取新浪旅游图片
- 刷题笔记:牛客字符串专项练习3
- python3 导入本地 package 问题
- 第十三周【项目1
- 模版模式的规则
- linux----vi编辑器删除所有内容命令、ping网站指定数据包多少
- 【2017.11.28】1. Two Sum
- 震惊!学了三年计算机,不晓得void 和 void* 区别!
- 安卓透明度对应的16进制