爬虫中的'伪装者'--header

来源:互联网 发布:十香cosplay淘宝 编辑:程序博客网 时间:2024/06/15 08:36

header中有哪些信息


待查看

User_Agent*:
用户代理.是一种向访问网站提供你所使用的浏览器类型,操作系统及版本,cpu类型,浏览器渲染引擎,浏览器语言,浏览器插件等信息的标识.UA字符串在每次浏览器HTTP请求时发送到服务器.客户端的类型,一般用来区分不同的浏览器
可以自己指定也可以自动获取

#自动获取from faker import Factoryf = Factory.create()header = {'User-Agent': f.user_agent()}

Referer:
HTTP referer 是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器我是从哪个页面链接过来的,服务器藉此可以获得一些信息用于处理.

Accept* :
浏览器可接受的MIME类型 ,设定某种扩展名的文件,浏览器会自动使用指定应用程序来打开.

header = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'}

Accept-Charset :
浏览器支持的字符编码

Accept-Encoding*
浏览器知道如何解码的数据编码类型(如 gzip)。

header = {'Accept-Encoding': 'gzip, deflate, br'}

Servlets :
可以预先检查浏览器是否支持gzip并可以对支持gzip的浏览器返回gzipped的Html页面,并设置Content-Encoding回应头(response header)来指出发送的内容是已经gzipped的。在大多数情况下,这样做可以加快网页下载的速度。

Accept-Language*:
浏览器指定的语言,当Server支持多语种时起作用。

header = {'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3'}

Authorization :
认证信息,一般是对服务器发出的WWW-Authenticate头的回应。

Connection :
是否使用持续连接,使用持续连接可以使保护很多小文件的页面的下载时间减少。
keep-alive
close

Content-Length:
(使用POST方法提交时,传递数据的字节数)

Cookie:
带着cookie可以直接访问登录后的页面。比如requests.get(url, headers)中header传入登录后的cookies就能直接访问页面,从而跳过登录页面。
类似原理还有session,session自动帮你管理cookie所以能保持登录状态访问页面。

s = requests.Session()r = s.post(url=loginurl, data=fromdata)#fromdata登录的表单r2 = s.get(url=contenturl)#用seesion保持登录状态去访问页面

Host :
(主机和端口)

原创粉丝点击