Python爬取百度贴吧图片脚本
来源:互联网 发布:mac的鼠标触摸板 编辑:程序博客网 时间:2024/05/18 22:17
新手,以下是爬取百度贴吧制定帖子的图片脚本,因为脚本主要是解析html代码,因此一旦百度修改页面前端代码,那么脚本会失效,权当爬虫入门练习吧,后续还会尝试更多的爬虫。
# coding=utf-8# !/usr/bin/env pythonimport urllib, string, osfrom bs4 import BeautifulSoupdef getHtml(url): page = urllib.urlopen(url) html = page.read() return htmldef getImg(): imgPath = 'F:/craw_tieba/' if not os.path.exists(imgPath): os.makedirs(imgPath) baseUrl = 'http://tieba.baidu.com/p/4657665666' imgList = [] for pg in range(1, 114): url = baseUrl + '?pn=' + str(pg) print 'Craw: ',url html = getHtml(url) soup = BeautifulSoup(html) imgURLList = string.split(str(soup.find_all('img')), ',') for i in range(0, len(imgURLList)): if 'http://imgsrc.baidu.com/forum/w%3D580/sign=' in imgURLList[i]: start = string.find(imgURLList[i], 'http') end = string.find(imgURLList[i], '.jpg') + 4 imgList.append(imgURLList[i][start : end]) x = 1 for img in imgList: urllib.urlretrieve(img, 'F:/craw_tieba/%s.jpg' % x) x += 1 print 'Craw tieba finish!'if __name__ == '__main__': getImg()
0 0
- Python爬取百度贴吧图片脚本
- python爬取百度贴吧图片
- python:爬取百度贴吧图片
- Python爬取百度贴吧的图片
- 使用Python爬取百度贴吧的图片
- python爬虫小项目:爬取百度贴吧图片
- python实现爬取百度贴吧图片
- 用Python爬取百度贴吧中的图片
- python爬取百度贴吧的图片
- Python 爬取百度图片
- python爬取百度图片
- Python爬取百度图片
- python爬取百度图片
- Python 爬取百度图片
- Python爬取百度图片
- python脚本爬取今日百度热点新闻
- 爬取百度贴吧图片
- Python爬虫爬取百度图片
- 高通kernel充电参数定义
- linux日志管理
- YDB技术原理
- android studio 中如何配置ndk project path 解决NDK_PROJECT_PATH=null 解决方法
- 测试不同编码的string中文 equals结果
- Python爬取百度贴吧图片脚本
- vim中复制,剪切一行,快速查找某一单词的命令
- bug宝典 hadoop篇 /hadoop/hdfs/data is in an inconsistent state: file VERSION has cTime missing.
- 30分钟LINQ教程
- YDB跟Solr Cloud、ElasticSearch区别
- 博客之旅开始
- iOS label添加删除线
- 基于原版Hadoop的YDB部署
- 排序