BeautifulSoup下载给定URL里的图片(一)
来源:互联网 发布:keynote mac 破解版 编辑:程序博客网 时间:2024/05/10 06:40
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。详细可以参考:Beautiful Soup 4.2.0 文档
本文用Beautiful Soup小试牛刀以下,通过Beautiful Soup下载一给定页面的图片(当然你也可以下载其他内容),只需简单改改代码就可以。
import urllibimport urllib2from bs4 import BeautifulSoupdef getContentFromUrl(url): req = urllib2.Request(url) content = urllib2.urlopen(req).read() content = BeautifulSoup(content, from_encoding='GB2312') return content上面代码根据给定的url链接,采用urllib2库打开,并取回页面的内容返回存放在content里。然后,通过Beautiful Soup解码,这里采用“GB2312"编码库,以防中文乱码问题。
下面从返回的content中,找到图片的url链接,这里使用很简单,只是简单的读取<img>标签,代码如下:
def getInfoFromContent(content): imgID = 0 imgs = content.find_all('img') for link in imgs: url = link.get('src') urllib.urlretrieve(url, "data/%02d.jpg"%imgID) print(link.get('src')) imgID =imgID+1上面中根据传入的参数content,找到所有的<img>标签,然后从中取img的src值(图片的地址),并通过urllib库的urlretrieve( )函数检索并保存到本地。
下面是一段测试代码:
if __name__ == "__main__": #print(getContentFromUrl("http://www.sohu.com")) content = getContentFromUrl("http://car.autohome.com.cn/jingxuan/index.html") getInfoFromContent(content)一会儿就从网站上爬下了很多图片
0 0
- BeautifulSoup下载给定URL里的图片(一)
- BeautifulSoup下载给定URL里的图片(二)
- Python抓取给定URL网页里的图片
- (一)BeautifulSoup的安装
- 下载图片-使用beautifulSoup模块
- 下载指定url的图片
- 下载url上的图片
- URL(获取指定网址里的图片)
- 【Android】给定URL显示网络图片的实现方法
- 根据数据库里的url批量下载
- java根据图片的URL下载图片
- 使用selenium+BeautifulSoup+正则表达式下载公众号我要whatyouneed文章里的音乐
- 小爬虫——下载给定网页上的图片
- 小爬虫——下载给定网页上的图片
- 根据url自动下载图片的demo
- 能下载url地址图片的ImageView
- 下载url图片到沙盒中
- java 下载URL图片
- 15周【项目1-用二进制文件处理学生成绩】
- linux磁盘分区详解
- LMGrammar API
- Linux 查看磁盘分区、文件系统、磁盘的使用情况相关的命令和工具介绍
- BinaryLoader API
- BeautifulSoup下载给定URL里的图片(一)
- Linux 标准目录结构
- 数据结构与算法分析 L3
- Java 抽象类与接口
- ubuntu下修改文件夹权限
- 每天一个linux命令(23):Linux 目录结构
- leetcode[27]:Remove Element
- TRIE树在输入法分词的应用
- 指针数组,数组指针,二级指针,二维数组的关系