Python爬虫入门

来源:互联网 发布:python concat函数 编辑:程序博客网 时间:2024/05/17 01:55

用Python编写简单的网络爬虫

今天看了菜鸟教程的Python教程,准备做个小作业写个爬虫程序。其中主要涉及到基本语法、正则表达式、urllib和re两个模块。

爬虫实现

1.获取网页

import urllib  #加载模块import redef getHtml(url):    page=urllib.urlopen(url)    html=page.read()    return htmlhtml = getHtml("要爬取网页的URL")print html

2.获取想要爬取的资源

def getImg(html):    reg = r'src="(.*?\.jpg)" '    imgre = re.compile(reg)    imglist = re.findall(imgre,html)    x = 0    for imgurl in imglist:        urllib.urlretrieve(imgurl, '%s.jpg' %x)        x += 1html = getHtml("要爬取网页的URL")getImg(html)

文章参考了虫师的博客
一个不错的Python爬虫教程

0 0
原创粉丝点击