python3 爬虫技术入门

来源:互联网 发布:淘宝如何设置价格区间 编辑:程序博客网 时间:2024/06/05 01:57


python3
1. 根据网址获取网页内容
语法:
import urllib.request
page = urllib.request.urlopen(url)
html = page.read()

2. 根据正则表达式筛选网页
reg = r'.*+?\'
imgre = re.compile(reg)
imglist  = re.findall(imgre,html)

3. 把筛选的内容保存下来
x = 0
for imgurl in imglist:
    urllib.urlretrieve(imgurl,'%s.jpg' % x)
    x += 1

原创粉丝点击