爬虫
来源:互联网 发布:java开发在公司任务 编辑:程序博客网 时间:2024/06/06 04:50
爬虫就是请求网站并提取数据的自动化程序。爬虫的基本流程:1.发起请求:通过HTTP库想目标站点发送请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应。2.获取相应内容:如果服务器能正确相应,会得到一个Response,Response的内容便是所要获取的页面内容。类型可能有HTML、Json字符串、二进制数据(如图片视频)等类型。3.解析内容:得到的内容可能是HTML,可以用正则表达式、网页解析库进行解析,可能是Json,可以直接转为Json对象进行解析,可能是二进制数据,可以做保存或者进一步的处理。4.保存数据:保存形式多样,比如文本或者存至数据库等。
Request:请求,客户端向服务器发送的数据。
Response:相应,服务器向客户端发送的数据。
阅读全文
0 0
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 爬虫
- 照片墙
- hdu 6096 String
- AdapterViewFlipper 自动播放图片(幻灯片效果)
- cannot import name filter
- 17多校contest 6- 1003 Inversion ( 模拟
- 爬虫
- Package gitlab-ce-9.4.3-ce.0.el6.x86_64.rpm is not signed
- 解决Android 应用方法数不能超过65K的问题
- java的三大特性之一重写
- Git Gui 在 Windows下使用
- Error LNK2001 无法解析的外部符号 的几种情况及解决办法
- BZOJ 4521: [Cqoi2016]手机号码 数位dp
- 软件工程考试题
- Ubuntu14.04下安装jdk1.8+eclipse(JEE版)