Python 图片爬虫实战(使用 urllib 库)
来源:互联网 发布:网络文学评论期刊 编辑:程序博客网 时间:2024/06/08 12:14
例:把京东商城手机类商品的图片全部下载到本地。
根据 url 猜测后续页面的 url,这一点并没有什么难度。
第 1 页的 ulr:
https://list.jd.com/list.html?cat=9987,653,655
第 2 页的 url:
https://list.jd.com/list.html?cat=9987,653,655&page=2&sort=sort_rank_asc&trans=1&JL=6_0_0#J_main
示例:
import reimport urllib.requestdef crawl(url, page): html1 = urllib.request.urlopen(url).read() html1 = str(html1) # 匹配了一个 div 多了一点一点的内容,注意这里没有括号,和后面没有括号的区别 pattern1 = '<div id="plist".*? <div class="page clearfix">' result1 = re.compile(pattern1).findall(html1) result1 = result1[0] pattern2 = '<img width="220" height="220" data-img="1" data-lazy-img="//(.*?\.jpg)">' imagelist = re.compile(pattern2).findall(result1) x = 1 for imageurl in imagelist: imagename = "./img/" + str(page) + "-" + str(x) + ".jpg" imageurl = "http://" + imageurl try: urllib.request.urlretrieve(imageurl, filename=imagename) except urllib.error.URLError as e: if hasattr(e, "error"): x += 1 if hasattr(e, "reason"): x += 1 x += 1for i in range(1, 6): url = "https://list.jd.com/list.html?cat=9987,653,655&page=%s" % str(i) crawl(url, i)print("图片下载完毕。")
使用 urllib 下载网页源代码的代码:
import urllib.requesturl = 'https://list.jd.com/list.html?cat=9987,653,655&page=1'html = urllib.request.urlopen(url).read()# <class 'bytes'>html = html.decode('utf-8')# html = html.decode('utf-8', 'ignore')print(html)
使用 urllib 下载图片的代码:
import urllib.requestimgurl = 'https://img11.360buyimg.com/n7/jfs/t4534/93/3556552833/67545/111fa009/590300b9Nde91dc43.jpg'filename = "./" + imgurl.split("/")[-1]# retrieve 取回urllib.request.urlretrieve(imgurl, filename=filename)
阅读全文
0 0
- Python 图片爬虫实战(使用 urllib 库)
- Python爬虫入门(3):Urllib库的基本使用
- Python爬虫入门(3):Urllib库的基本使用
- Python的Urllib库的使用(爬虫基础)
- python爬虫(一)urllib库基本使用
- Python爬虫入门(3):Urllib库的基本使用
- Python爬虫-urllib库
- python爬虫urllib使用B
- python爬虫urllib库学习(源码)
- 爬虫实战之四--urllib库的使用详解
- python学习:urllib库学习:制作简易爬虫下载图片
- Python爬虫---urllib库介绍
- python爬虫-urllib库学习
- python爬虫(urllib简介)
- Python使用urllib库和BeautifulSoup库爬虫总结
- python爬虫 - Urllib库及cookie的使用
- Python爬虫入门三之Urllib库的基本使用
- Python爬虫入门三之Urllib库的基本使用
- iOS开发~SDWebImage是如何做到Url不变的情况下,更新图片内容的
- mavan archetype插件的创建与使用
- ESP8266-SDK开发入坑(一)-各种配置
- 极限元语音算法专家刘斌:基于深度学习的语音生成问题
- svn log显示最新几行
- Python 图片爬虫实战(使用 urllib 库)
- Android UI效果之绘图篇(一)
- php项目中的RBAC权限
- 代码干货 | spring中自定义Event事件的使用和浅析
- 移动端开发——吸顶效果的解决方案
- java-IO流: Path和Files详解
- 相似图片搜索的原理
- [BZOJ]2150: 部落战争 二分图匹配
- 在oracle中的日期类型与String类型