一个图片小爬虫
来源:互联网 发布:浏览器for mac 编辑:程序博客网 时间:2024/04/19 23:20
表示放假看了看python ,一直想写个爬虫玩一下,但是好多网站都有反爬虫的机制orz..,导致爬下来的图片根本没法看(哭 。最近发现一个很良心的站,于是写了个小爬虫嘿嘿嘿。主要用到了BeautifulSoup库和requests库,比较简单,效率比较差,有待改进就当自娱自乐了hhh
import osimport requestsfrom bs4 import BeautifulSoupimport reclass Mmonly(object): def all_page(self,url): for page in range(1,388): print('当前第',page,'页') page_html = url[:-6] + str(page) + '.html' self.all_url(page_html) def all_url(self,url): html = self.request(url) all_a = BeautifulSoup(html.text,'html5lib').find_all('div',class_ = 'ABox') for a in all_a: href = a.contents[0] name = href.contents[0] url = href['href'] title = name['alt'] path = str(title) if self.mkdir(path): self.html(url) else: pass def mkdir(slef,path): path = path.strip() isExists = os.path.exists(os.path.join('G:\python\mmonly.cc',path)) if not isExists: print('创建一个叫',path,'的文件夹') os.mkdir(os.path.join('G:\python\mmonly.cc',path)) os.chdir(os.path.join('G:\python\mmonly.cc',path)) return True else: print(path,'文件夹已经存在') return False def html(self,url): pic_html = self.request(url) pic_num = BeautifulSoup(pic_html.text,'html5lib').find('span',class_ = 'totalpage').get_text() cnt = 0 for page in range(1,int(pic_num)+1): page_url = url[:-5] + '_' + str(page) + '.html' #print(page_url) cnt += 1 self.img(page_url,cnt) #print(pic_num) def img(self,url,cnt): img_html = self.request(url) img_url = BeautifulSoup(img_html.text,'html5lib').find('div', class_ ='big-pic').find('img')['src'] #print(img_url) self.save(img_url,cnt) def save(self,url,cnt): name = str(cnt) #print(name) img = self.request(url) f = open(name+'.jpg','ab') f.write(img.content) f.close(); def request(self,url): headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'} content = requests.get(url,headers = headers) return contentmmonly = Mmonly()url = 'http://www.mmonly.cc/ktmh/list_28_1.html'mmonly.all_page(url)
阅读全文
0 0
- 一个图片小爬虫
- 一个python爬图片的小爬虫
- python图片小爬虫
- 百度图片小爬虫
- python 图片小爬虫
- 一个小爬虫
- 一个Python小爬虫
- 一个小爬虫
- 一个python小爬虫
- 滑稽色图片小爬虫
- 【python小练习】百度图片小爬虫
- 一个python爬虫小程序
- 一个小爬虫学到的
- 一个小的爬虫实例——爬取百度贴吧图片
- 第一个小爬虫-------下载jpg图片
- python 实现网站图片抓取小爬虫
- python 小爬虫爬取美女图片
- 爬虫小练手-爬取慕课网首页的图片
- 《数据库SQL实战》获取当前(to_date='9999-01-01')薪水第二多的员工的emp_no以及其对应的薪水salary
- 生成函数-HDU1398
- IJCAI2017论文下载python脚本
- unity 边缘检测shader简介(二)
- 视频压缩研究
- 一个图片小爬虫
- 队列的C++实现
- PHP安装和操作MongoDB扩展
- const和define
- 11gR2新特性---Gpnp守护进程
- Jump Game II -- LeetCode
- 启动页和app图标相关问题
- 网易2018内推_算法工程师_笔试题_交错01串_C/C++
- 【23种设计模式】创建型模式 > 建造者模式