Python3之利用requests和BeautifulSoup抓取部分信息
来源:互联网 发布:windows中安装ipython 编辑:程序博客网 时间:2024/06/05 09:09
import requestsimport osfrom bs4 import BeautifulSoupimgPath = r'D:\Users\Quincy_C\PycharmProjects\S6\bs模块\汽车图片'response = requests.get(url='http://www.autohome.com.cn/news/')response.encoding = response.apparent_encodingbs = BeautifulSoup(response.text, features='html.parser')bs_obj = bs.find(id="auto-channel-lazyload-article")li_list = bs_obj.find_all('li')for i in li_list: a = i.find('a') if a: txt = a.find('h3').text print(a.find('img').attrs.get('src')) # requests.get('url').content返回的是字节 imgContent = requests.get(a.find('img').attrs.get('src')).content import uuid if not os.path.isdir(imgPath): os.mkdir(imgPath) else: imgUrl = str(uuid.uuid4()) + '.jpg' with open(os.path.join(imgPath, imgUrl), 'wb') as f: f.write(imgContent)
如果要讲图片存放在指定的文件夹,可以这样:
with open(os.path.join(imgPath, imgUrl), 'wb') as f: f.write(imgContent)
或者:
os.chdir(imgPath)
都可以的,之前搞过,忘记了。记录一下!
总结一下:
requests
requests.get(‘url’,headers=headers)发送一个请求
response.encoding = response.apparent_encoding指定编码
requests.get(‘url’).text获取网页内容
requests.get(‘url’).content获取图片的字节
BeautifulSoup
bs = BeautifulSoup(requests.get(‘url’).text,features=’html.parser’)
bs.find(‘div’,id=”)
bs.find_all(‘div’,id=”)
bs.find_all(‘div’,class=”)
a.attrs获取一个字典
a.ttrs.get(”)获取具体的内容
阅读全文
1 0
- Python3之利用requests和BeautifulSoup抓取部分信息
- 利用requests和BeautifulSoup完成抓取数据
- Python3之requests模块抓取内容乱码
- 利用python3 requests和BeautifulSoup4抓取百度贴吧研究生录取通知书并展示
- Requests+Beautifulsoup+re百度贴吧抓取实例(python3.4逐行解释)
- 使用python3抓取新浪股票使用beautifulsoup解析和selenium
- requests.get 和 bs4.BeautifulSoup
- requests和BeautifulSoup一些细节
- python3中使用requests和beautifulsoup爬取西刺免费代理IP 入库mongo!
- python3的爬虫抓取猫眼电影的信息(requests+正则表达式)
- requests和BeautifulSoup组合爬虫技术
- requests和BeautifulSoup中文编码转换心得
- BeautifulSoup简单的自助抓取一点信息
- [python]利用BeautifulSoup进行简单图片抓取
- Python3之Requests模块详解
- python学习(6):python爬虫之requests和BeautifulSoup的使用
- 安装Python3.6和requests
- python3 xpath和requests应用
- CentOS安装配置ClamAV
- Spark 报错scala.reflect.api.JavaUniverse.runtimeMirror
- Spark日志分析项目Demo(5)--自定义Accumulator
- Android息屏与亮屏
- React Native 环境搭建 初始化项目 运行 调试
- Python3之利用requests和BeautifulSoup抓取部分信息
- 完美解决Linux sublime Text中文无法输入的问题
- python -- 装饰器的高级应用
- Mac上[ERROR] docker-cli docker ps failed
- NYOJ 733 万圣节派对
- 直接插入排序
- C++11:类的改进
- python itertools.chain 乘号* 实例
- ZOJ