爬虫中的＇伪装者＇－－header

来源：互联网发布：十香cosplay淘宝编辑：程序博客网时间：2024/06/15 08:36

待查看

User_Agent*:
用户代理．是一种向访问网站提供你所使用的浏览器类型，操作系统及版本，cpu类型，浏览器渲染引擎，浏览器语言，浏览器插件等信息的标识．UA字符串在每次浏览器HTTP请求时发送到服务器．客户端的类型，一般用来区分不同的浏览器
可以自己指定也可以自动获取

#自动获取from faker import Factoryf = Factory.create()header = {'User-Agent': f.user_agent()}

Referer:
HTTP referer 是header的一部分，当浏览器向web服务器发送请求的时候，一般会带上Referer，告诉服务器我是从哪个页面链接过来的，服务器藉此可以获得一些信息用于处理．

Accept* :
浏览器可接受的MIME类型 ,设定某种扩展名的文件，浏览器会自动使用指定应用程序来打开.

header = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'}

Accept-Charset :
浏览器支持的字符编码

Accept-Encoding*
浏览器知道如何解码的数据编码类型(如 gzip)。

header = {'Accept-Encoding': 'gzip, deflate, br'}

Servlets :
可以预先检查浏览器是否支持gzip并可以对支持gzip的浏览器返回gzipped的Html页面，并设置Content-Encoding回应头(response header)来指出发送的内容是已经gzipped的。在大多数情况下，这样做可以加快网页下载的速度。

Accept-Language*:
浏览器指定的语言，当Server支持多语种时起作用。

header = {'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3'}

Authorization :
认证信息，一般是对服务器发出的WWW-Authenticate头的回应。

Connection :
是否使用持续连接，使用持续连接可以使保护很多小文件的页面的下载时间减少。
keep-alive
close

Content-Length:
(使用POST方法提交时，传递数据的字节数)

Cookie:
带着cookie可以直接访问登录后的页面。比如requests.get(url, headers)中header传入登录后的cookies就能直接访问页面，从而跳过登录页面。
类似原理还有session,session自动帮你管理cookie所以能保持登录状态访问页面。

s = requests.Session()r = s.post(url=loginurl, data=fromdata)#fromdata登录的表单r2 = s.get(url=contenturl)#用seesion保持登录状态去访问页面

Host :
(主机和端口)

阅读全文

0 0

header中有哪些信息