python爬虫(爬游民星空壁纸)_图片损坏问题
来源:互联网 发布:科比2016数据 编辑:程序博客网 时间:2024/05/17 09:43
__author__ = 'AllenMinD'import requests,urllibfrom bs4 import BeautifulSoupans = 1for page in range(1,12): if page==1: url = 'http://www.gamersky.com/ent/201603/730123.shtml' else: url = 'http://www.gamersky.com/ent/201603/730123_'+str(page)+'.shtml' header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.109 Safari/537.36' ,'Cookie':'BIDUPSID=5B700B9ED7BFDE99E48407F4C10FABAA; BAIDUID=05F28292EA8DA5A589737ACF26DD1B31:FG=1; PSTM=1456985091; BDUSS=1hczlEYmxKckJPbU9CRDE0R1hQcWtOOWJIQ2JQY1BRckQ2OW9kdWNnfmhTUjVYQVFBQUFBJCQAAAAAAAAAAAEAAABHG40~AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAOG89lbhvPZWaU'} source_code = requests.get(url,headers = header) plain_text = source_code.text soup = BeautifulSoup(plain_text,'lxml')# print soup.select('p > a') download_link = [] for pic_tag in soup.select('p > a'): #print pic_tag.get('href')[52:] download_link.append(pic_tag.get('href')[52:])#*********重点********* folder_path = "D:/spider_things/2016.4.4/bizhi/" for item in download_link: urllib.urlretrieve(item , folder_path + str(ans) + '.jpg') print 'You have downloaded',ans,'picture(s)!~' ans = ans+1
前些天想做下游民星空壁纸的爬去,但是一开始想平常那样爬取时,最终下载下来的图片会损坏:
于是,上网查找问题所在,在一个网站中得到一点启发(点击打开链接):初步猜测出错的原因是图片的链接不对
然后我在了看原来爬取下载图片的链接是:
http://www.gamersky.com/showimage/id_gamersky.shtml?http://img1.gamersky.com/image2016/03/20160319_hc_44_10/gamersky_005origin_009_201631919596C4.jp
g
但实际上,下载的原图的链接是:
http://img1.gamersky.com/image2016/03/20160319_hc_44_10/gamersky_005origin_009_201631919596C4.jpg
终于!发现问题了,原来的链接中多了:“http://www.gamersky.com/showimage/id_gamersky.shtml?”
于是利用一个简单的切片便获取了正确的链接:
pic_tag.get('href')[52:]
问题终于解决了!~o(∩_∩)o 哈
0 0
- python爬虫(爬游民星空壁纸)_图片损坏问题
- 【python爬虫】游民星空福利和壁纸帖图片爬虫
- python爬虫(爬游民星空图片)_beautifulsoup爬虫模版
- 爬取游民星空网的图片
- python爬虫抓取游民星空每日囧图
- [python爬虫] 爬取图片无法打开或已损坏的简单探讨
- python爬虫自动搜索下载游民今日搞笑图集
- python爬虫(爬取蜂鸟网图片)_创建文件夹
- python爬虫(爬取蜂鸟网高像素图片)_空网页,错误处理
- Python爬虫_自动下载图片
- Python爬虫之高清壁纸下载
- python爬虫之壁纸的下载
- 【简易Python爬虫】 初试爬虫_简易Python图片爬虫实现
- python爬虫爬取图片
- python Requests 知乎问题图片爬虫
- Python爬虫_简单获取百度贴吧图片
- Python爬虫入门-scrapy爬取唯一图库高清壁纸
- Python爬虫_基础
- Delphi GDI+基本用法总结
- EasyUI Datagrid JSON对象内嵌对象的取值问题
- 进程间通信
- opencv 初学者常见问题
- 毕业设计博客(一)
- python爬虫(爬游民星空壁纸)_图片损坏问题
- jsonObject.getString() 和jsonObject.optString()区别
- 实现自己的ImageLoader(2)-----LruCache与DiskLruCache缓存详解
- 指针和引用的区别
- 005 ZeroMQ REQ-<ROUTER-Dealer>-REP代理应答与请求
- 太空3D
- 欢迎使用CSDN-markdown编辑器
- pwnable之coin1
- poj 1094 Sorting It All Out 拓扑排序