Python爬虫

来源:互联网 发布:ff14捏脸动漫数据 编辑:程序博客网 时间:2024/06/06 03:53
from urllib import request
from bs4 import BeautifulSoup
url = 'http://python.org/'


# 下载网页
print ("连接网络")
html = request.urlopen(url)
print ("开始下载网页")
content = html.read()
content = content.decode('utf-8')
print ("下载网页完成")
html.close()


# 使用BeautifulSoup匹配图片
html_soup = BeautifulSoup(content,'lxml')
# 相较通过正则表达式去匹配,BeautifulSoup提供了一个更简单灵活的方式
all_img_links = html_soup.findAll('img')
print (all_img_links)


# 接下来就是老生常谈的下载图片
img_counter = 1
for img_link in all_img_links:
   img_name = '%s.jpg' % img_counter
   # 下载到本地 默认下载在文件相对路径
   request.urlretrieve(url+img_link['src'], img_name)
   img_counter += 1
原创粉丝点击