爬虫小知识点

来源:互联网 发布:oracle数据库错误日志 编辑:程序博客网 时间:2024/06/10 19:14

1.爬虫的定义

模拟浏览器发送请求,获取响应

2.为什么浏览器渲染出来的页面和爬虫请求的页面不一样?

浏览器有css,js,url对应的响应
爬虫url对应的响应
由于js能够修改页面内容,所以会导致elements的内容和url对应的响应不一样

3.User-Agent是什么?有什么用?

User-Agent:告诉服务端是谁在发送请求,
通过User-Agent来模拟浏览器
模拟手机版的浏览器,把User-Agent改成手机版的就好了

4.get请求和post请求有什么区别?

get:没有请求体,数据在url中,携带的数据有上限
post:有请求体,无法在url中看到,携带的数据没有上限

5.bytes类型和str类型如何相互转化

bytes.decode() --->strstr.encode() --->bytes

6.requests模块如何发送请求,如何获取html字符串

 import requests r = requests.get(url) r.encoding = "utf-8" r.text #获取网页的html字符串
原创粉丝点击