python简单的爬虫程序

来源:互联网 发布:python bt文件下载 编辑:程序博客网 时间:2024/05/17 09:20

代码:


#coding = utf-8import urllibimport re#读取网站html内容def getHtml(url):    page = urllib.urlopen(url)    html = page.read()    return html#找到图片并下载到指定文件夹def getImg(html):    reg = 'src="(.+?\.jpg)" alt='   #图片的正则表达式    imgre = re.compile(reg)         #编译正则表达式模式,返回一个对象的模式。    imglist = re.findall(imgre, html)   #re.findall遍历匹配,可以获取字符串中所有匹配的字符串,返回一个列表。    x = 0    for imgurl in imglist:        name = imgurl[45:]        content = urllib.urlopen(imgurl).read()        open(r'image/' + name,'w+').write(content)    #下载图片到指定文件夹image        x+=1    return imglisthtml = getHtml("http://www.ivsky.com/")print getImg(html)def getHtml(url):    page = urllib.urlopen(url)    html = page.read()    return htmldef getImg(html):    reg = 'src="(.+?\.jpg)" alt='    imgre = re.compile(reg)    imglist = re.findall(imgre, html)    x = 0    for imgurl in imglist:        name = imgurl[45:]        content = urllib.urlopen(imgurl).read()        open(r'image/' + name,'w+').write(content)        x+=1    return imglisthtml = getHtml("http://www.ivsky.com/")print getImg(html)


原创粉丝点击