Python 爬虫:获取网页图片
来源:互联网 发布:jqplot 动态数据 编辑:程序博客网 时间:2024/05/17 23:10
脚本为获取某一个网页页面上的图片:(36 氪 为栗)
#coding=utf-8import urllibimport reimport osweburl = "http://36kr.com/" #爬取网页tardir = "F:\\0000\\kk" #保存路径def getHtml(url): page = urllib.urlopen(url) html = page.read() return htmldef destDir(path): if not os.path.isdir(path): os.makedirs(path) p = path.split('\\')[-1] if not (p==''): path = path + '\\' return pathdef getSuffix(fileurl): return fileurl.split('.')[-1]def getImg(html): reg = r'(http.:[\S]*?.(jpg|jpeg|png|gif|bmp|JPG|JPEG|PNG|GIF|BMP))' imgall = re.findall(reg,html) destPath = destDir(tardir) x = 1 for imgurl,i in imgall: urllib.urlretrieve(imgurl,destPath+'%s.' % x +getSuffix(imgurl)) print "完成 ".decode('UTF-8').encode('GBK') + imgurl x+=1html = getHtml(weburl)print getImg(html)os.system("pause")
现在进行升级,下载某个网站各个页面图片:(漏洞盒子 为栗)
打开网址 https://www.vulbox.com/board 点击几页数据,可以发现规律,网站最后一个数字为页码变量:
https://www.vulbox.com/board/internet/page/页数 ,按照这个规律,可以循环读取每个页面!
#coding=utf-8import urllibimport reimport osweburl = "https://www.vulbox.com/board"tardir = "F:\\0000\\kk"def getHtml(url): page = urllib.urlopen(url) html = page.read() return htmldef destDir(path): if not os.path.isdir(path): os.makedirs(path) p = path.split('\\')[-1] if not (p==''): path = path + '\\' return pathdef getSuffix(fileurl): return fileurl.split('.')[-1]def getImg(html,n): reg = r'(http.:[\S]*?.(jpg|jpeg|png|gif|bmp|JPG|JPEG|PNG|GIF|BMP))' imgall = re.findall(reg,html) destPath = destDir(tardir) x = 1 for imgurl,i in imgall: urllib.urlretrieve(imgurl,destPath+'%s_' % n +'%s.' % x +getSuffix(imgurl)) print "完成 ".decode('UTF-8').encode('GBK') + imgurl x+=1n = 1for n in range(1,6): #取前5页 pageurl = weburl + "/internet/page/" + str(n) html = getHtml(pageurl) print getImg(html,n) print "【完成页面】 ".decode('UTF-8').encode('GBK') + pageurl n = n + 1os.system("pause")
1 0
- python 爬虫获取网页图片
- Python 爬虫:获取网页图片
- python 爬虫 获取网页中的图片
- Python网页图片爬虫
- Python爬虫网页图片
- Python爬虫抓取网页图片
- Python爬虫抓取网页图片
- python--获取网页图片
- python网络爬虫,抓取网页图片
- [python][爬虫]从网页中下载图片
- python 爬虫入门1 网页图片保存
- Python爬虫第一步之获取网页源代码
- Python网络爬虫(1)获取网页
- python爬虫(1)_获取网页
- Python 爬虫获取百度贴吧图片
- python爬虫 分页获取图片并下载
- python爬虫——获取图片2
- python简单爬虫(获取图片)
- [AHK]只在某些特定情景生效的热键
- C++ 左值和右值
- 对JavaWeb的结构认识
- Mysql的第一天
- 怎样查询自己的苹果手机各个软件的大小,占用多少内存?
- Python 爬虫:获取网页图片
- AngularJS 控制器
- 深度学习GPU卡的理解(二)
- 传感器--概述
- 二级菜单的实现
- 文字阴影
- Linux-oracle_tar包方式安装文档
- 离散傅里叶变换代码解读以及一些展示,by《opencv3编程入门》p139
- 自定义EL表达式的功能方法