正则表达式爬取慕课网课程图片
来源:互联网 发布:台风灾害数据网址 编辑:程序博客网 时间:2024/06/15 19:47
这是一个非常简单的爬虫小程序,不过非常有利于对Python正则表达式的理解。
首先,我们确定目标网页
http://www.imooc.com/course/list
我们要用的python模块有urllib2以及re模块:
import urllib2import re
抓取目标网页:
req = urllib2.urlopen('http://www.imooc.com/course/list')html = req.read()
这时候我们发现图片在html文件中的标签是这样的:
<img class="course-banner lazy" data-original="http://img.mukewang.com/5704a5d50001582f06000338-240-135.jpg"
由此,我们就能通过如下方式找到整个页面的全部图片链接:
links = re.findall(r'http:.+\.jpg',html)
随后我发现得到的链接中还有这样的形式:
'http://img.mukewang.com/56f22f3900012d0206000338-240-135.jpg" src="http://img.mukewang.com/56f22f3900012d0206000338-240-135.jpg',
这显然是不利于我们下载图片的,然后我想到了可以用限制中间的字符的数量来分割链接:
In [56]: links = re.findall(r'http:.+{5,60}\.jpg',html)
这样,就得到了整个网页内所有课程图片的链接,随后,通过一个for循环将图片依次下载到本地:
i = 1for link in links: f = open(str(i) + '.jpg','w') req = urllib2.urlopen(link) buf = req.read() f.wirte(buf) i += 1
最后,得到了整个页面的课程图片
阅读全文
0 0
- 正则表达式爬取慕课网课程图片
- 达内课程-正则表达式
- 图片正则表达式
- standford NLP课程笔记一 正则表达式
- 获取图片的正则表达式
- 正则表达式图片文件验证
- 正则表达式读取图片地址
- 正则表达式得到图片URL
- 下载图片-使用正则表达式
- 利用urllib,正则表达式,文件读写,爬取慕课网首页图片
- [Regex]ASP.NET 中的正则表达式-微软速成课程
- [Regex]ASP.NET 中的正则表达式-微软速成课程
- [Regex]ASP.NET 中的正则表达式-微软速成课程
- [Regex]ASP.NET 中的正则表达式-微软速成课程
- [Regex]ASP.NET 中的正则表达式-微软速成课程
- [Regex]ASP.NET 中的正则表达式-微软速成课程
- [Regex]ASP.NET 中的正则表达式-微软速成课程
- 本地图片文件路径正则表达式
- Python的并发和网络
- Synchronized小记
- fiddler 的使用方法
- HeadFirst Python记事本
- tcpdump非常实用的抓包实例
- 正则表达式爬取慕课网课程图片
- 关于图表的展示插件
- java.lang.NoClassDefFoundError: org/apache/taglibs/standard/tag/rt/core/UrlTag
- java配置xml报cvc-complex-type.2.3: 元素 'beans' 必须不含字符 [子级], 因为该类型的内容类型为“仅元素”
- java 位运算
- Scala 发现 $ 符号的类EL表达式
- 并发编程之synchronized
- redis -Writing to master: Unknown error异常处理
- Eclipse配置项目生成jar包到tomcat的webapps下