Python爬虫学习记录(1)——百度贴吧图片下载
来源:互联网 发布:Windows切换目录 编辑:程序博客网 时间:2024/06/04 18:16
#!/usr/bin/python#coding=utf-8import osfrom urllib.request import urlopenfrom urllib.request import urlretrieveimport redef getHtml(url):#获取网页的函数 page = urlopen(url) html = page.read() return htmldef getImg(html,id,page_num): #获取图片的函数 reg = r'http:\/\/imgsrc.baidu.com\/forum\/.{70,100}jpg' imgre = re.compile(reg) html = str(html) f = open("/usr/lxp/python_test/getImg_Python/out_" + str(page_num),"w+") f.write(html) f.close() imglist = imgre.findall(html) x = 0 for imgurl in imglist: save_name = 'topic_'+ id + '_' + str(page_num) + '_%s.jpg' % x print('download' + save_name +' sucessfully from ' + imgurl) urlretrieve(imgurl,save_name) x+=1 return imglistdef getAllImg(topic_id):#解析网页按页数下载 page_num = 1 html_len=0 os.system('mkdir topic_' + topic_id) while True : html = getHtml("http://tieba.baidu.com/p/" + topic_id + '?see_lz=1&pn=' + str(page_num)) print(str(html_len) + ' ' + str(len(html))) if html_len == len(html): break getImg(html,topic_id,page_num) os.system('mv topic_' + topic_id + '*.jpg topic_' + topic_id) html_len = len(html) page_num = page_num + 1 return page_numtopic_id = input("topic id:")getAllImg(topic_id)
</pre><pre name="code" class="python">
1 0
- Python爬虫学习记录(1)——百度贴吧图片下载
- 学习记录:python百度贴吧爬虫
- Python爬虫学习记录(0)——Python 爬虫抓站 记录(虾米,百度,豆瓣,新浪微博)
- 百度贴吧自动图片下载爬虫
- Python爬虫学习(1):百度贴吧
- Python爬虫学习2--百度贴吧
- Python爬虫(二)图片下载爬虫
- python爬虫(五)图片下载爬虫
- python爬虫学习笔记2——百度贴吧帖子爬取
- python网络爬虫入门(三)—— 做个简陋的pixabay 图片下载器
- 一、python爬虫程序入门(图片下载)
- Python网络爬虫(三):图片下载器
- python爬虫图片下载
- python爬虫之图片下载
- Python爬虫实战:百度贴吧—妈妈吧
- [Python]实战——百度贴吧爬虫
- [Python]实战——百度贴吧爬虫
- python爬虫案例——百度贴吧数据采集
- 在eclipse中JAVA从打包成jar程序到双击运行的整个过程(没有主清单属性问题的解决)
- Eclipse搭建Android开发环境-Android SDK和ADT离线安装
- 九度oj 1129
- 解析json数据
- poj 2485 最小生成树中的最大边 prim
- Python爬虫学习记录(1)——百度贴吧图片下载
- BC-52-1001
- android-使用webview来开发混合应用
- UILabel
- poj 1258 最小生成树 prim
- Socket编程步骤
- hdu1014 Uniform Generator
- 我们被叫做90后 | 致青春(催泪好文,自备纸巾)
- 学习笔记 post和get的区别