全面剖析网络爬虫

来源：互联网发布：剑三少林正太脸型数据编辑：程序博客网时间：2024/06/06 07:18

URL的定义-----如何抓取网页-----如何处理HTTP状态码

1.URL的定义

抓取网页的过程类似于使用浏览器浏览网页，“打开”网页的过程就是浏览器作为一个浏览的“客户端”，向服务器端发送一次请求，把服务器端的文件“抓”到本地，在进行解释、展开。进而，可以通过浏览器查看“抓取”过来的文件源代码，选择“查看”|“源文件”命令，就会出现从服务器上“抓取”下来的文件的源代码。

URI Web上每种可用的资源，如HTML文档、图像、视频片段、程序等都由一个通用资源标识符（universal Resource Identifier，URI）进行定位。

URI通常由三部分组成：访问资源的命名机制；存放资源的主机名；资源自身的名称，由路径表示。

如：http://www.webmonkey.com.cn/html/html40/

这是一个可以通过HTTP协议访问的资源，位于主机www.webmonkey.com.cn上，通过路径“/html/html40”访问。

URL是URI的一个子集，(Uniform Resource Locator)译为“统一资源定位符”。通俗的讲，URL是Internet上描述信息资源的字符串，主要用在各种www客户程序和服务器程序上。采用URL可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等。URL的格式由三部分组成：协议（服务方式）；存有该资源的主机IP地址（有时也包括端口号）；主机资源的具体地址,如目录和文件名等。

0 0