用python实现简单爬虫
来源:互联网 发布:找不到淘宝的卖家中心 编辑:程序博客网 时间:2024/05/24 04:21
初识python,其简洁的语法和强大的库让人印象深刻。今天特地写了个简单爬虫,爬取了天堂图片网前10张图片。
代码如下:
#coding=utf-8import urllib.requestimport redef getHtml(url): page = urllib.request.urlopen(url) html = page.read() return htmldef getImg(html): reg = r'src="(.+?\.jpg)" alt=' imgre = re.compile(reg) html = html.decode('utf-8') imglist = re.findall(imgre,html) x = 0 for imgurl in imglist: x = x + 1 if(x >= 11): break urllib.request.urlretrieve(imgurl,'%s.jpg' % x) return imglisthtml = getHtml("http://www.ivsky.com/tupian/ziranfengguang/")for each in getImg(html): print(each)
注意:该代码使用的是python3.5版本的解释器,与2.7会有一些差别。
部分代码调整如下:
- python3.X将request库纳入了urllib中,所以为import urllib.request,而2.7版本的是import request
- html = html.decode(‘utf-8’)是对read( )方法返回后的html进行编码
0 0
- 用python实现简单爬虫
- python 简单爬虫实现
- Python实现简单爬虫
- Python实现简单爬虫
- Python实现简单爬虫
- Python实现简单爬虫
- python 实现简单爬虫
- Python简单爬虫实现
- Python 用Redis简单实现分布式爬虫
- python实现简单爬虫功能
- python实现简单爬虫功能
- python实现简单爬虫功能
- python实现简单爬虫功能
- python实现简单爬虫功能
- python 实现简单网络爬虫
- Python实现简单的爬虫
- python实现简单爬虫功能
- python实现简单爬虫功能
- webpack的CommonsChunkPlugin插件
- Java 9 的 9 个特性
- 两年Java开发工作经验面试总结
- [BZOJ4606][Apio2008]DNA-动态规划
- MySQL(3)-子查询、连接、运算符及函数
- 用python实现简单爬虫
- Ajax 小 Demo 集合(一)
- Android中利用反射机制创建实例的代码
- 解读一段循环冗余校验(CRC)算法程序
- java中的session对象及其常用方法
- 数据结构——顺序表的基本操作
- SwipeRefreshLayout详解和自定义上拉加载更多
- 变态跳台阶
- 调整数组顺序使奇数位于偶数之前