有关网络爬虫的一些基本概念(一)

来源：互联网发布：喀秋莎录屏软件的使用编辑：程序博客网时间：2024/05/16 10:48

网络爬虫：（又被称为网页蜘蛛，网络机器人，在FOFA社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。

URI(Uniform Resource Identifier 统一资源标识符）一般由三部分组成：1.访问资源的命名机制(方案名、协议)2.存放资源的主机名（域名）3.资源自身的名称（路径）。

例：http://www.cisco.com/en/US/partners/index.html

方案名 (http)

域名 (www.cisco.com)

路径 (/en/US/partners/index.html)

URL是Uniform Resource Locator的缩写，译为“统一资源定位符”：URL的格式由下列三部分组成：

第一部分是协议（或称为服务方式）；

第二部分是存有该资源的主机IP地址（有时也包括端口号）；

第三部分是主机资源的具体地址。，如目录和文件名等。

第一部分和第二部分之间用“：//”符号隔开，第二部分和第三部分用“/”符号隔开。第一部分和第二部分是不可缺少的，第三部分有时可以省略。

URL示例

文件的URL：

用URL表示文件时，服务器方式用file表示，后面要有主机IP地址、文件的存取路径（即目录）和文件名等信息。有时可以省略目录和文件名，但“/”符号不能省略。

例：file://a:1234/b/c/d.txt

代表获取资源使用ftp协议，资源目标是a主机的1234端口的b目录下的c目录下的d.txt。

0 0