爬虫学习:一个ip地址下载器

来源:互联网 发布:js id命名规范 编辑:程序博客网 时间:2024/05/12 01:03
import urllib.requestimport redef open_url(url):    req=urllib.request.Request(url)    req.add_header('User-Agent','Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6')    page=urllib.request.urlopen(req)    html=page.read().decode('utf-8')    return htmldef get_img(html):    p=r'(?:(?:[01]?\d?\d|2[0-4]\d|25[0-5])\.){3}(?:[01]?\d?\d|2[0-4]\d|25[0-5])'#?:正则表达式的扩展    iplist=re.findall(p,html)    for each in iplist:        print(each)        if __name__=='__main__':    url="http://www.xicidaili.com/"#代理地址框    get_img(open_url(url))    

0 0
原创粉丝点击