python爬虫之豆瓣图片(二)
来源:互联网 发布:js修改css样式 编辑:程序博客网 时间:2024/05/14 06:57
伪装浏览器
- 对与一些需要登录的网站,如果不是从六七发出的请求,则得不到响应。所以,我们需要将爬虫程序法出请求伪装成浏览器正规军
- 具体实现:自定义网页请求报头(详细介绍)
使用Fiddle查看请求和响应报头
打开下载好的工具Fiddler,然后在浏览器访问“https://www.douban.com/”,在Fiddle左侧访问记录中,找到“200 HTTP www.douban.com”这一条,点击查看对应的请求和响应报头的具体内容,截图如下:
访问豆瓣
通过自定义请求报头与上图的Request Headers相同内容:
import urllib.request #定义保存文件的函数 def saveFile(data): path="E:\\python\\douban.out" f=open(path,'wb') f.write(data) f.colse() #网址 url="https://www.douban.com/" headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/62.0.3202.62 Safari/537.36'} req=urllib.request.Request(url=url,headers=headers) res=urllib.request.urlopen(req) data=res.read() #把爬去的内容保存到文件中 saveFile(data) data=data.decode('utf-8') #打印出抓取的内容 print(data) #打印各类信息 print(type(res)) print(res.geturl()) print(res.info()) print(res.getcode())
阅读全文
0 0
- python爬虫之豆瓣图片(二)
- python爬虫之豆瓣图片(一)
- python爬虫豆瓣图片(三)
- python爬虫登录豆瓣(二)
- python爬虫之登录豆瓣
- python爬虫(豆瓣影评)
- python爬虫之豆瓣图书信息几行字
- python爬虫之豆瓣电影评分
- python爬虫之获取豆瓣电影信息
- 豆瓣相册图片爬虫
- python爬虫登录豆瓣(一)
- python豆瓣爬虫由浅入深(1)
- python爬虫 豆瓣电影
- python豆瓣电影爬虫
- Python豆瓣爬虫
- python 爬虫 豆瓣韩国电影
- python爬虫(豆瓣影评requests版并下载电影封面图片)
- 利用Python网络爬虫抓取豆瓣首页图片代码分享
- 【最优化】黄金分割法与Fibonacci法
- 优先队列之堆排序((二)升级版)
- android 开发入门书籍推荐
- (十三)、Java复习笔记之反射
- 带模板的基于 Treap 的名次树
- python爬虫之豆瓣图片(二)
- Ros官网j基础教程总结
- git操作Linux kernel
- DNS服务及其管理
- PyTorch学习之路(level2)——自定义数据读取
- 第6次C练习
- C++中extern "C"的使用
- VMware无法连接 MKS:套接字连接尝试次数太多正在放弃
- Aspectj的使用demo