python使用HTMLParser保存网页图片
来源:互联网 发布:化工流程图软件 编辑:程序博客网 时间:2024/06/05 07:34
#coding=utf-8
from HTMLParser import HTMLParser
import urllib
import sys
import os
class MyHTMLParser(HTMLParser):
def __init__(self):
HTMLParser.__init__(self)
self.links = []
def handle_starttag(self, tag, attrs):
if tag == "img":
for (variable, value) in attrs:
if (variable == "src"):
self.links.append(value)
if __name__ == "__main__":
html = urllib.urlopen('http://www.baidu.com').read()
hp = MyHTMLParser()
# hp.feed(html)
# 网易的网页编码格式为gb2312需要修改成这样否则出错
hp.feed(html.decode('gb2312','ignore'))
hp.close()
imgs = hp.links
# print imgs
'''
获取文件所在绝对路径
'''
# basename = os.path.basename(__file__)
dir1 = os.getcwd()
dir2, basename = os.path.split(__file__)
dir = dir1 + '/' + dir2
# print "%s所在目录为%s" % (basename, dir)
filedir = dir + '/' + basename.split('.')[0]
#判断目录是否存在
if not os.path.isdir(filedir):
print '创建目录'
os.mkdir(filedir)
'''
保存图片
'''
filedir += '/'
for img in imgs:
filename = img.split('/')[-1]
filename = filedir + filename
urllib.urlretrieve(img, filename)
from HTMLParser import HTMLParser
import urllib
import sys
import os
class MyHTMLParser(HTMLParser):
def __init__(self):
HTMLParser.__init__(self)
self.links = []
def handle_starttag(self, tag, attrs):
if tag == "img":
for (variable, value) in attrs:
if (variable == "src"):
self.links.append(value)
if __name__ == "__main__":
html = urllib.urlopen('http://www.baidu.com').read()
hp = MyHTMLParser()
# hp.feed(html)
# 网易的网页编码格式为gb2312需要修改成这样否则出错
hp.feed(html.decode('gb2312','ignore'))
hp.close()
imgs = hp.links
# print imgs
'''
获取文件所在绝对路径
'''
# basename = os.path.basename(__file__)
dir1 = os.getcwd()
dir2, basename = os.path.split(__file__)
dir = dir1 + '/' + dir2
# print "%s所在目录为%s" % (basename, dir)
filedir = dir + '/' + basename.split('.')[0]
#判断目录是否存在
if not os.path.isdir(filedir):
print '创建目录'
os.mkdir(filedir)
'''
保存图片
'''
filedir += '/'
for img in imgs:
filename = img.split('/')[-1]
filename = filedir + filename
urllib.urlretrieve(img, filename)
- python使用HTMLParser保存网页图片
- Python使用HTMLParser.HTMLParser处理网页
- python使用HTMLParser和BeautifulSoup解析网页
- python使用HTMLParser和BeautifulSoup解析网页
- 使用python 简单的保存网页的图片
- HTMLParser使用--只是为了保存
- python 保存网页图片到本地
- python 爬虫入门1 网页图片保存
- 使用htmlparser抓取网页链接
- 使用HtmlParser读取论坛图片
- python下用HTMLParser分析网页方法
- 关于我使用htmlparser,以及通过htmllparse下载网页中的图片
- Python HTMLParser的使用例子
- 使用程序保存网页中的图片 网络读取图片
- python 网页爬虫+保存图片+多线程+网络代理
- python 网页爬虫+保存图片+多线程+网络代理
- python爬虫实战(1)抓取网页图片自动保存
- Python Plot+Bokeh画图并保存为图片或网页
- JS中正则表达式替换单引号等说明
- Unity3D 中保存或读取数组的方法
- 体会Python之独具匠心:Python XML PRC server多线程实现及其原理
- C++链式栈的简单实现(只有基本功能)
- 用MyEclipse引入已有项目出现问题
- python使用HTMLParser保存网页图片
- 求字符在字符串中出现的次数
- Java关键字final、static使用总结
- 在Asp.net MVC模式下实现网站地图导航
- Oracle expdp 过滤和并行
- 数据结构——链栈的基本操作
- A+B for Input-Output Practice (VIII)
- iOS 监测网络。
- Android4.2 CTS测试详解