爬虫小知识点
来源:互联网 发布:oracle数据库错误日志 编辑:程序博客网 时间:2024/06/10 19:14
1.爬虫的定义
模拟浏览器发送请求,获取响应
2.为什么浏览器渲染出来的页面和爬虫请求的页面不一样?
浏览器有css,js,url对应的响应
爬虫url对应的响应
由于js能够修改页面内容,所以会导致elements的内容和url对应的响应不一样
3.User-Agent是什么?有什么用?
User-Agent:告诉服务端是谁在发送请求,
通过User-Agent来模拟浏览器
模拟手机版的浏览器,把User-Agent改成手机版的就好了
4.get请求和post请求有什么区别?
get:没有请求体,数据在url中,携带的数据有上限
post:有请求体,无法在url中看到,携带的数据没有上限
5.bytes类型和str类型如何相互转化
bytes.decode() --->strstr.encode() --->bytes
6.requests模块如何发送请求,如何获取html字符串
import requests r = requests.get(url) r.encoding = "utf-8" r.text #获取网页的html字符串
阅读全文
0 0
- 爬虫小知识点
- 网络爬虫相关知识点
- 爬虫知识点(xpath)
- 爬虫知识点(session)
- Python爬虫知识点一
- Python爬虫知识点二
- 小知识点
- 小知识点
- 小知识点
- 小知识点
- 小知识点
- 小知识点
- 小知识点
- 小知识点
- 小知识点
- 小知识点
- 小知识点
- 小知识点
- 设计模式之模板模式
- 第一份编程
- 【Python编程:从入门到实践】第八章:函数
- 系统总线(一)
- centos 7关闭防火墙
- 爬虫小知识点
- C 练习实例1-10
- 蓝桥杯-----入门训练(序列求和,圆的面积,Fibonacci数列)JAVA代码
- 欢迎使用CSDN-markdown编辑器
- 融云群组server相关系统消息
- eslint
- linux下使用hiredis异步API实现sub/pub消息订阅和发布的功能 标签: hiredishiredis异步APIhiredis事件处理redis消息订阅发布redis c接口 2016-
- KMP算法
- 欢迎使用CSDN-markdown编辑器