python3爬虫初探(三)之正则表达式
来源:互联网 发布:软件测试行业如何 编辑:程序博客网 时间:2024/06/03 20:54
前面已经写了如何获取网页源码,那么接下来就是该解析网页并提取需要的数据了。这里简单写一下正则表达的用法。
首先,找个要抓取图片的网站,获取源码。
import requestsimport re# 获取网页源码url = 'http://www.ivsky.com/tupian/xiaohuangren_t21343/'data = requests.get(url).text
小黄人的图。。。接下来浏览器检查元素,发现图片源码格式,前面均为<img ,结尾均为 .jpg 而我们要提取的就是网址部分。
正则表达式如下:
#正则表达式三部曲#<img src="http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren-009.jpg" width="135" height="135" alt="卑鄙的我小黄人图片">regex = r'<img src="(.*?.jpg)"'#匹配网址pa = re.compile(regex)#转为pattern对象ma = re.findall(pa, data)#findall 方法找到所有的符合pa的对象,添加到一个列表中并返回print(ma)#图片网址列表print(len(ma))#列表长度,即找到图片个数#截取部分列表输出#['http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren_tupian-007.jpg', 'http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren-009.jpg', 'http://img.ivsky.com/...#25
阅读全文
0 0
- python3爬虫初探(三)之正则表达式
- python3 爬虫入门(三)正则表达式基本使用
- python3爬虫之入门和正则表达式
- Python3爬虫之入门和正则表达式
- Python3爬虫之入门和正则表达式
- python3爬虫之入门和正则表达式
- [Python3]爬虫入门之正则表达式
- python3爬虫初探(二)之requests
- python3爬虫初探(六)之EXCEL
- python3之正则表达式
- python3爬虫初探(一)之urllib.request
- python3爬虫初探(四)之文件保存
- python3爬虫初探(五)之从爬取到保存
- python3爬虫——正则表达式re详解(1)
- python3爬虫(二) re模块与正则表达式
- python3爬虫初级入门和正则表达式
- Python3之正则表达式详解
- python3爬虫初探(七)使用MySQL
- spring cloud-Stream,Task,Data Flow任务调度
- 持久化
- postgresql常用命令
- tensorflow中文文档学习笔记(1)
- SQLServer配置管理器
- python3爬虫初探(三)之正则表达式
- Java -- 反射
- Python数据库连接池DBUtils.PooledDB
- 外部中断实验
- HDU 6211 本源勾股组 + 法里数列
- PHP快速导出excel表格
- https\SSL安全证书配置,Tomcat、nodejs、Nginx服务器安全证书配置
- Sed替换删除添加字符串
- memcpy/memset函数的c语言实现