简单的爬取网页图片

来源：互联网发布：淘宝套餐链接转手机端编辑：程序博客网时间：2024/06/04 23:20

import reimport urllib.request# ------ 获取网页源代码的方法 ---def getHtml(url):    page = urllib.request.urlopen(url)    html = page.read()    return html# ------ getHtml()内输入任意帖子的URL ------html = getHtml("http://tieba.baidu.com/p/3205263090")# ------ 修改html对象内的字符编码为UTF-8 ------html = html.decode('UTF-8')# ------ 获取帖子内所有图片地址的方法 ------def getImg(html):    # ------ 利用正则表达式匹配网页内容找到图片地址 ------    reg = r'src="([.*\S]*\.jpg)" pic_ext="jpeg"'    imgre = re.compile(reg);    imglist = re.findall(imgre, html)    return imglistimgList = getImg(html)imgName = 0for imgPath in imgList:    # ------ 这里最好使用异常处理及多线程编程方式 ------    f = open("F:/pic/"+str(imgName)+".jpg", 'wb')    f.write((urllib.request.urlopen(imgPath)).read())    f.close()    imgName += 1print("All Done!")

阅读全文

0 0