爬虫中的'伪装者'--header
来源:互联网 发布:十香cosplay淘宝 编辑:程序博客网 时间:2024/06/15 08:36
header中有哪些信息
待查看
User_Agent*:
用户代理.是一种向访问网站提供你所使用的浏览器类型,操作系统及版本,cpu类型,浏览器渲染引擎,浏览器语言,浏览器插件等信息的标识.UA字符串在每次浏览器HTTP请求时发送到服务器.客户端的类型,一般用来区分不同的浏览器
可以自己指定也可以自动获取
#自动获取from faker import Factoryf = Factory.create()header = {'User-Agent': f.user_agent()}
Referer:
HTTP referer 是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器我是从哪个页面链接过来的,服务器藉此可以获得一些信息用于处理.
Accept* :
浏览器可接受的MIME类型 ,设定某种扩展名的文件,浏览器会自动使用指定应用程序来打开.
header = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'}
Accept-Charset :
浏览器支持的字符编码
Accept-Encoding*
浏览器知道如何解码的数据编码类型(如 gzip)。
header = {'Accept-Encoding': 'gzip, deflate, br'}
Servlets :
可以预先检查浏览器是否支持gzip并可以对支持gzip的浏览器返回gzipped的Html页面,并设置Content-Encoding回应头(response header)来指出发送的内容是已经gzipped的。在大多数情况下,这样做可以加快网页下载的速度。
Accept-Language*:
浏览器指定的语言,当Server支持多语种时起作用。
header = {'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3'}
Authorization :
认证信息,一般是对服务器发出的WWW-Authenticate头的回应。
Connection :
是否使用持续连接,使用持续连接可以使保护很多小文件的页面的下载时间减少。
keep-alive
close
Content-Length:
(使用POST方法提交时,传递数据的字节数)
Cookie:
带着cookie可以直接访问登录后的页面。比如requests.get(url, headers)中header传入登录后的cookies就能直接访问页面,从而跳过登录页面。
类似原理还有session,session自动帮你管理cookie所以能保持登录状态访问页面。
s = requests.Session()r = s.post(url=loginurl, data=fromdata)#fromdata登录的表单r2 = s.get(url=contenturl)#用seesion保持登录状态去访问页面
Host :
(主机和端口)
- 爬虫中的'伪装者'--header
- python爬虫05--添加header
- php中的header汇总
- php中的header汇总
- php中的header用法
- Header中的Cache-control
- header中的Cache-control
- header中的内容
- AXML中的node header
- HTTP Header中的ETag
- PHP中的header()函数
- header中的expect
- HTTP Header中的ETag
- HTTP Header中的ETag
- http请求中的header
- php中的header汇总
- HTTP Header中的内容(请求Header、响应Header)
- 爬虫那些事-爬虫设计思路
- android 服务
- HDU-2064-汉诺塔III
- Android Arcgis(13)、Gdal简单写个shp文件
- Jdbc事务笔记
- torch mac openmp
- 爬虫中的'伪装者'--header
- 初学者的linux
- 封装函数代码
- MySQL入门之select、from、join、where子句及基本匹配符
- Flag破灭
- UVA 12657 Boxes in a Line(双向链表)
- Python之经典类VS新式类和Supper
- Python基础入门之输入输出
- 实例讲解TP5中关联模型