python抓取页面数据实例

来源:互联网 发布:linux恢复rm删除文件夹 编辑:程序博客网 时间:2024/05/16 05:09

抓取文章数据保存在本地

#coding=utf-8import urllibimport redef getHtml(url):    page = urllib.urlopen(url)    html = page.read()    return htmldef getImg(html):    reg = r'src="(.+?\.jpg)" pic_ext'    imgre = re.compile(reg)    imglist = re.findall(imgre,html)    x = 0    for imgurl in imglist:        urllib.urlretrieve(imgurl,'%s.jpg' % x)        x+=1html = getHtml("http://www.chtml.cn/")#这里可以直接保存到数据库中,作为测试这里打印给大家看print getImg(html)
0 0