Python爬取网页图片02
来源:互联网 发布:数据库系统实现英文版 编辑:程序博客网 时间:2024/06/03 23:50
#coding=utf-8import reimport timeimport osimport _osx_supportimport urllib.requestbaseFiledirs='D:\img\images/'# baseFiledir='D:\img/'# 获取网页def getHtml(url): page = urllib.request.urlopen(url) html = page.read() html = html.decode('UTF-8') return html# 获取图片def getImg(html): # r'^http(s)?://.+\.(jp(e)?g|png)$' # reg = r'img class="BDE_Image" src="(.+?\.jpg)"' # reg = r'img src="(.+?\.jpg)"' # reg = r'src="(.+?\.jpg|.+?\.png)"' reg = r'img .+?\ src="(.+?\.jpg|.+?\.png)"* ' # reg = r'^http(s)?://.+\.(jp(e)?g|png)$' imgre = re.compile(reg) # print(type(imgre)) # print(imgre) imglist = re.findall(imgre,html) # print(type(imglist)) print(imglist) num = 0 for imgurl in imglist: # urllib.request.urlretrieve(imgurl,'D:\img\hardaway%s.jpg' %num) # urllib.request.urlretrieve(imgurl,'D:\img' +time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())+"\%s.jpg")#不可用 # urllib.request.urlretrieve(imgurl,'D:\img\%s' %num+".jpg") # imgurl.replace("https","") # imgurl.replace("http","") # paths=imgurl.split('/') # del paths[len(paths)-1] # del paths[0] # del paths[0] # path=baseFiledir # for shortPath in paths: # path+=shortPath+"/" # # # print(num,path) # # if os.path.exists(path)==False: # os.makedirs(path) # # print(num, path+"/"+imgurl.split('/')[-1]) # urllib.request.urlretrieve(imgurl,path+imgurl.split('/')[-1])#将所有文件保存到相应路径 print(imgurl) try: if imgurl.startswith("//"): imgurl="httP:"+imgurl if os.path.exists(baseFiledirs) == False: os.makedirs(baseFiledirs) urllib.request.urlretrieve(imgurl,baseFiledirs+imgurl.split('/')[-1])#将所有文件保存到指定目录 num += 1 except BaseException: print("errorurl:",imgurl) return "success"# html = getHtml("http://tieba.baidu.com/p/1569069059")# html = getHtml("http://www.cankaoxiaoxi.com/roll10/bd/20170425/1926008.shtml")# html = getHtml("http://www.bilibili.com")# html = getHtml("http://www.bilibili.com/blackboard/activity-B1bzUVG0l.html")html = getHtml("http://news.baidu.com/")# print("html内容:",html)print(getImg(html))
阅读全文
0 0
- Python爬取网页图片02
- python爬取网页图片
- python爬取网页图片
- Python爬取网页图片
- Python爬取网页图片
- Python 爬取网页图片
- Python 网页爬取图片
- 用python 爬取网页图片
- Python爬取一个网页的图片
- Python入门-爬取网页图片
- 使用Python爬取网页图片
- 利用python爬取网页图片
- Python爬取一个网页的图片
- Python爬取网页图片01
- Python爬取网页图片03
- 爬取网页图片
- 爬取网页图片
- python爬取网页
- Windows10下搭建汇编语言开发环境(利用DOSBOX和MASM32)
- PyCharm使用技巧:Save File as Template(把当前文件保存为模板)
- 2017.10月自考总结
- 解决Django换用jinja2模板引擎后admin提示“TemplateDoesNotExist”
- mysql学习
- Python爬取网页图片02
- 各种国内yum源
- java新IO---通道(Channel)
- 1662: [Usaco2006 Nov]Round Numbers 圆环数
- 最短路径之迪杰斯特拉
- 6.Linux环境变量
- C学习笔记(一)
- C/C++中typedef关键字用法总结
- A