一个Python 爬虫程序
来源:互联网 发布:金九银十的数据 编辑:程序博客网 时间:2024/05/18 03:17
一个简单的实现煎蛋网妹子图片爬取的Python脚本
# -*- coding:utf-8 -*-'''version:Python 2.6standard libs: urllibauthor:Dead_morningsystem: cetos 6.5'''import reimport urllibdef get_content(html_page):'''html downladd''' html = urllib.urlopen(html_page) content = html.read() html.close() return contentdef get_images(info):'''html parser''' regex = r'href="//wx(.+?\.(?:gif|jpg|jpeg|png))" ' # download original picture #使用正则表达式为了下载原图,这里可使用 soupbeautiful 模块替代正则表达式 pat = re.compile(regex) image_code = map(lambda x: 'http://wx'+ x , re.findall(pat,info)) return image_codedef Download_image():''' image download''' for image_url in get_images(info): print image_url image_name = image_url.split('/')[-1] # 给文件命名 urllib.urlretrieve(image_url,image_name)def html_pages():''' URl list'''#因为煎蛋网的网址比较有规律,所以就用了一个简单的List替代了从网页里解析 b = [] for a in range (1 ,95): url= 'http://jandan.net/ooxx/page-%s#comments' %a b.append(url) return bif __name__ == '__main__': for html_page in html_pages(): info = get_content(html_page) print Download_image()
阅读全文
0 0
- 一个Python 爬虫程序
- 一个python爬虫小程序
- 一个简单的python爬虫程序
- Python写的一个爬虫程序
- 一个简单的python爬虫程序
- 一个简单的python爬虫程序
- 用python写一个爬虫程序
- 用Python写一个小小的爬虫程序
- 一个简单的python爬虫程序+分词+标签云
- Python的爬虫程序
- python爬虫程序
- python爬虫小程序
- python简单爬虫程序
- Python爬虫程序
- python爬虫程序-登录
- python爬虫helloworld程序
- 一个Python小爬虫
- 一个python爬虫实例
- Java中PriorityQueue的排序
- 常用 Git 命令清单
- javascript 拖拽函数
- 机器学习-sklearn模块数据预处理
- 字典对象的Pythonic用法(上篇)
- 一个Python 爬虫程序
- CPP入门基础知识
- redis总结
- C#——面向对象 (一)
- CentOS6.9上安装Redmine3.3.3
- Android Studio安装配置教程
- 软件工程(C编码实践篇)
- C++面向对象(二)
- Node.js中npm常用命令大全