爬虫

来源:互联网 发布:java开发在公司任务 编辑:程序博客网 时间:2024/06/06 04:50
爬虫就是请求网站并提取数据的自动化程序。爬虫的基本流程:1.发起请求:通过HTTP库想目标站点发送请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应。2.获取相应内容:如果服务器能正确相应,会得到一个Response,Response的内容便是所要获取的页面内容。类型可能有HTML、Json字符串、二进制数据(如图片视频)等类型。3.解析内容:得到的内容可能是HTML,可以用正则表达式、网页解析库进行解析,可能是Json,可以直接转为Json对象进行解析,可能是二进制数据,可以做保存或者进一步的处理。4.保存数据:保存形式多样,比如文本或者存至数据库等。

Request:请求,客户端向服务器发送的数据。
Response:相应,服务器向客户端发送的数据。

原创粉丝点击