爬虫

来源：互联网发布：java开发在公司任务编辑：程序博客网时间：2024/06/06 04:50

爬虫就是请求网站并提取数据的自动化程序。爬虫的基本流程：1.发起请求：通过HTTP库想目标站点发送请求，即发送一个Request，请求可以包含额外的headers等信息，等待服务器响应。2.获取相应内容：如果服务器能正确相应，会得到一个Response，Response的内容便是所要获取的页面内容。类型可能有HTML、Json字符串、二进制数据(如图片视频)等类型。3.解析内容：得到的内容可能是HTML，可以用正则表达式、网页解析库进行解析，可能是Json，可以直接转为Json对象进行解析，可能是二进制数据，可以做保存或者进一步的处理。4.保存数据：保存形式多样，比如文本或者存至数据库等。

Request：请求，客户端向服务器发送的数据。
Response：相应，服务器向客户端发送的数据。

阅读全文

0 0