python爬虫:下载百度贴吧图片(多页)学习笔记
来源:互联网 发布:mac safari无痕模式 编辑:程序博客网 时间:2024/05/22 00:20
# -*- coding: utf-8 -*-
"""
Created on Sat Oct 22 11:49:43 2016
@author: hhxsym
"""
import os
import requests
from bs4 import BeautifulSoup
import urllib #用于下载图形
inpath="C:\\Users\\hhxsym\\Desktop\\课程群Python爬虫"
inpath = unicode(inpath , "utf8")
os.chdir(inpath) #不做编码转换后,中文路径无法打开,更改
#实现单页访问
def download_jpg(url):
response = requests.get(url) #请求网页,获得响应的内容
print response.status_code #打印状态码
soup = BeautifulSoup(response.text, 'lxml') #解析响应的内容 BeautifulSoup(响应变量,解析器)
#print soup
urls = soup.find_all('img', 'BDE_Image') # find_all方法,基于CSS返回到元素,获取图片的地址, soup.find_all(标签, CSS样式)
#print urls
for url in urls:
url=url.get('src') #通过标签获取到元素,用get方法,直接获取解析标签对应的属性值
print url
urllib.urlretrieve(url,'%s' % url.split('/')[-1]) #下载图片,命名
urllib.urlretrieve(url,'img/%s' % url.split('/')[-1]) #下载图片,命名,放到指定文件夹,注:img文件夹必须提前创建
#实现多页访问
def get_all_jpg(url, pages):
for page in range(1, pages+1):
new_url=url + '?pn=' + str(page) #构造地址
download_jpg(new_url)
if __name__ == '__main__':
#download_jpg("http://tieba.baidu.com/p/3797994694?pn=1")
get_all_jpg("http://tieba.baidu.com/p/3797994694", 5)
"""
Created on Sat Oct 22 11:49:43 2016
@author: hhxsym
"""
import os
import requests
from bs4 import BeautifulSoup
import urllib #用于下载图形
inpath="C:\\Users\\hhxsym\\Desktop\\课程群Python爬虫"
inpath = unicode(inpath , "utf8")
os.chdir(inpath) #不做编码转换后,中文路径无法打开,更改
#实现单页访问
def download_jpg(url):
response = requests.get(url) #请求网页,获得响应的内容
print response.status_code #打印状态码
soup = BeautifulSoup(response.text, 'lxml') #解析响应的内容 BeautifulSoup(响应变量,解析器)
#print soup
urls = soup.find_all('img', 'BDE_Image') # find_all方法,基于CSS返回到元素,获取图片的地址, soup.find_all(标签, CSS样式)
#print urls
for url in urls:
url=url.get('src') #通过标签获取到元素,用get方法,直接获取解析标签对应的属性值
print url
urllib.urlretrieve(url,'%s' % url.split('/')[-1]) #下载图片,命名
urllib.urlretrieve(url,'img/%s' % url.split('/')[-1]) #下载图片,命名,放到指定文件夹,注:img文件夹必须提前创建
#实现多页访问
def get_all_jpg(url, pages):
for page in range(1, pages+1):
new_url=url + '?pn=' + str(page) #构造地址
download_jpg(new_url)
if __name__ == '__main__':
#download_jpg("http://tieba.baidu.com/p/3797994694?pn=1")
get_all_jpg("http://tieba.baidu.com/p/3797994694", 5)
0 0
- python爬虫:下载百度贴吧图片学习笔记
- python爬虫:下载百度贴吧图片(多页)学习笔记
- python 百度贴吧爬虫(下载图片)
- Python学习笔记:爬虫下载图片
- Python爬虫学习笔记二:百度贴吧网页图片抓取
- Python 爬虫获取百度贴吧图片
- python爬虫学习--下载图片
- 【python爬虫】百度贴吧帖子图片批量保存爬虫
- 【python 爬虫】百度贴吧帖子所有楼层图片爬虫
- 我的第一个python爬虫程序(从百度贴吧自动下载图片)
- Python爬虫实战(五) :下载百度贴吧帖子里的所有图片
- Python爬虫学习(1):百度贴吧
- Python爬虫学习2--百度贴吧
- 学习记录:python百度贴吧爬虫
- python学习笔记(一)爬虫实战:图片自动下载器
- Python 百度爬虫图片
- Python 下载百度贴吧的图片
- python 下载百度贴吧图片
- 数据通信与网络-Physical layer
- Tomcat7 类加载原理
- linux下解决设备权限的问题总结
- onvif 同时发现多台设备的问题
- quick-cocos2d-x 2.2.5 创建工程
- python爬虫:下载百度贴吧图片(多页)学习笔记
- 每天一道智力题
- 关于ajax
- 解决OnsenUI单页面应用物理回退问题
- 多重继承
- java反射
- 【CodeForces】257C - View Angle(计算几何)
- selenium处理复选框radio
- ASP.NET中cookie与Fiter实现简单登陆,AllowAnonymous匿名登陆