网络爬虫学习一

来源:互联网 发布:软件未响应关不掉 编辑:程序博客网 时间:2024/05/11 10:57
一. 根据url抓取页面源码:

import reimport urllibdef getHtml(url):    agent=''    page=urllib.urlopen(url)    html = page.read()    return htmltry:    html = getHtml(url='https://www.zhihu.com/question/20899988')    #html.encoding = 'utf-8'except Exception:    print 'getHtml fail'print html

二. 从抓取的网页中下载图片

def getImg(html):    reg = r'src="(.+?\.jpg)"'    #reg=r'src'    pat = re.compile(reg)    imgList = re.findall(pat,html)    x=1    for imgurl in imgList:        urllib.urlretrieve(imgurl,'%s.jpg' % x)        x+=1

三. 抓取前模拟登陆

相关知识:

     http消息头 :理解HTTP消息头


    


       




0 0
原创粉丝点击