python与matlab爬虫百度图片首页的图片(urllib.request)
来源:互联网 发布:求五轴磨床编程软件 编辑:程序博客网 时间:2024/06/01 20:14
python的爬虫实践
python版本:python 3.6.0,实践内容:爬去百度图片首页的所有图片保存在本地,并批量读取图片并排列组合成一张大图。内容涉及:正则表达式,反盗链等操作。需要说明的使用伪装的headers,否则可能会出现404 forbidden.下载图片使用的是urllib.request.urlretrieve函数,也可以使用save函数直接保存在本地。
import urllib.requestimport reurl = "http://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%B1%DA%D6%BD&fr=ala&ala=1&pos=0&alatpl=wallpaper&oriquery=%E5%A3%81%E7%BA%B8"headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.137 Safari/537.36 LBBROWSER' } req = urllib.request.Request(url=url, headers=headers)#伪装浏览器 page = urllib.request.urlopen(req)html = page.read()imgre = re.compile(r'"objURL":"http://img2.niutuku.com(.*?)\.jpg",')#网页源代码,正则表达式html=html.decode('utf-8','ignore')#python3imglist = re.findall(imgre,html)print (imglist)x=0for imgurl in imglist: urllib.request.urlretrieve('http://img2.niutuku.com'+imgurl+'.jpg','E:\\'+'%s.jpg' % x) x= x+1
将爬取的图片保存在一张图上。
import matplotlib.pyplot as pltfrom scipy import miscfor i in range(1,11): str = "%s%d%s"% ("E:\\",i-1,".jpg") image = mpimg.imread(str)#图片读取 image_new_size = misc.imresize(image,[260,280])#统一尺寸 plt.subplot(2,5,i) plt.imshow(image_new_size,origin = 'lower') plt.axis('off')plt.show()plt.savefig('E:\\out.jpg')
matlab爬虫实践
fullURL = ['http://www.mathworks.com/matlabcentral/fileexchange' ... '?term=urlread'];str = urlread(fullURL,'Timeout',5);
fullURL = ['http://www.mathworks.com/matlabcentral/fileexchange' ... '?term=urlwrite'];filename = 'samples.html';urlwrite(fullURL,filename,'Timeout',5);
matlab的上述代码可以爬取网页源代码,接下来只需要对字符数据进行操作,即可得到图片数据地址,进行下载即可。
主要参考文献:
http://blog.csdn.net/baidu_31956557/article/details/75579344
http://hongtoushizi.iteye.com/blog/2268825
http://blog.csdn.net/denny2015/article/details/50532968
http://www.cnblogs.com/yinxiangnan-charles/p/5928689.html
阅读全文
0 0
- python与matlab爬虫百度图片首页的图片(urllib.request)
- Python 百度爬虫图片
- 百度图片爬虫-python语言
- python学习:urllib库学习:制作简易爬虫下载图片
- Python 图片爬虫实战(使用 urllib 库)
- 爬虫小练手-爬取慕课网首页的图片
- [python][urllib] 下载网页上的图片
- Python3爬虫百度图片搜索的图片
- python爬虫抓取多关键词搜索的百度图片
- python爬虫基础知识(一)--Urllib.request
- Python 爬虫获取百度贴吧图片
- python爬虫(抓取百度图片)
- python爬虫之爬百度美女图片
- Python爬虫爬取百度图片
- Python爬虫抓取百度搜索图片
- 【python小练习】百度图片小爬虫
- python 爬虫爬取百度图片
- 模仿百度首页的图片轮播
- 洛谷P1010幂次方
- 数据结构与算法_斐波那契数列的递归与非递归
- android复杂动画实现途径
- 利用ssh传输文件
- spring依赖注入
- python与matlab爬虫百度图片首页的图片(urllib.request)
- ZigBee TI ZStack CC2530 3.2 官方例程00-总
- android 将byte[]保存到手机
- Gym 101086 A, L ,G,H ,F 题解
- java学习心得--操作符
- String和StringBuffer的区别
- 淘淘商城系列——使用maven tomcat插件启动web工程
- Activity的启动模式:FLAG_ACTIVITY_CLEAR_TOP和FLAG_ACTIVITY_REORDER_TO_FRONT
- 【会后有感】千里之行,始于足下。