python 爬虫

来源:互联网 发布:js object empty 编辑:程序博客网 时间:2024/06/03 14:53
<pre name="code" class="html">#!usr/bin/pythonimport reimport urllibdef getHtml(url):    page=urllib.urlopen(url)    html=page.read()    return htmldef getImg(html):    reg=r'src="(.*?\.jpg)" width'    imgre=re.compile(reg)    imglist=re.findall(imgre,html)    x=0    for imgurl in imglist:        urllib.urlretrieve(imgurl,'%s.jpg' % x)        x+=1    return imglisthtml= getHtml("http://tieba.baidu.com/p/1898043927")print getImg(html)


解释如下:
getHtml(url) 下载指定url 的网页
getImg(html) 从网页中获取指定正则表达式的连接,同时下载该图片 按顺序保存
python 写爬虫果然比java简洁,java写个同样的功能的爬虫费大劲啊
0 0