01爬虫概述
来源:互联网 发布:同志软件blued 编辑:程序博客网 时间:2024/06/05 05:22
网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的。
通用网络爬虫
通用网络爬虫又称全网爬虫(Scalable Web Crawler),爬行对象从一些种子 URL 扩充到整个 Web,主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。
聚焦网络爬虫
聚焦网络爬虫(Focused Crawler),又称主题网络爬虫(Topical Crawler),是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。
增量式网络爬虫
增量式网络爬虫(Incremental Web Crawler)是 指 对 已 下 载 网 页 采 取 增 量式更新和只爬行新产生的或者已经发生变化网页的爬虫,它能够在一定程度上保证所爬行的页面是尽可能新的页面。
Deep Web 爬虫
Deep Web 爬虫爬行过程中最重要部分就是表单填写,包含两种类型:
1) 基于领域知识的表单填写:此方法一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单。
2) 基于网页结构分析的表单填写: 此方法一般无领域知识或仅有有限的领域知识,将网页表单表示成 DOM 树,从中提取表单各字段值。
阅读全文
0 0
- 01爬虫概述
- 网络爬虫概述
- 爬虫之概述
- 网络爬虫概述
- 网络爬虫初识:网络爬虫概述
- 【网络爬虫】【python】网络爬虫(一):python爬虫概述
- 网络爬虫学习笔记(一) 网络爬虫概述
- Python爬虫进阶一之爬虫框架概述
- 爬虫-01-什么是爬虫
- 爬虫训练营-基础之概述
- 网络爬虫学习笔记之概述
- java网络爬虫学习记录(一)概述
- 爬虫之了解---网站/网页前端技术概述
- 【爬虫-反爬虫】系列一:基础之概述(1)
- 爬虫学习01 什么是爬虫 爬虫的分类
- 爬虫入门-01-爬虫基础了解
- node.js爬虫01
- python--爬虫01
- Git下载代码--git clone命令
- Qt线程详解
- 淘宝镜像
- Java数据初始化顺序
- 顺时针打印矩阵(图文详解,代码详细注释)
- 01爬虫概述
- AS(二) Android Studio连接真机
- MySQL-1.外键约束
- 16-JavaScript设计模式——责任链模式
- JavaOSC协议使用教程-以及遇到的坑(UTF-16BE中文乱码)
- c#隐藏函数 lambda表达式 泛型综合使用代码
- 推荐系统评价:NDCG方法概述
- linux安装ssh服务
- 编译libcurl+zlib+openssl