全面剖析网络爬虫

来源:互联网 发布:剑三少林正太脸型数据 编辑:程序博客网 时间:2024/06/06 07:18

URL的定义-----如何抓取网页-----如何处理HTTP状态码

1.URL的定义

   抓取网页的过程类似于使用浏览器浏览网页,“打开”网页的过程就是浏览器作为一个浏览的“客户端”,向服务器端发送一次请求,把服务器端的文件“抓”到本地,在进行解释、展开。进而,可以通过浏览器查看“抓取”过来的文件源代码,选择“查看”|“源文件”命令,就会出现从服务器上“抓取”下来的文件的源代码。

   URI Web上每种可用的资源,如HTML文档、图像、视频片段、程序等都由一个通用资源标识符(universal Resource Identifier,URI)进行定位。

   URI通常由三部分组成:访问资源的命名机制;存放资源的主机名;资源自身的名称,由路径表示。

   如:http://www.webmonkey.com.cn/html/html40/

   这是一个可以通过HTTP协议访问的资源,位于主机www.webmonkey.com.cn上,通过路径“/html/html40”访问。

   URL是URI的一个子集,(Uniform Resource Locator)译为“统一资源定位符”。通俗的讲,URL是Internet上描述信息资源的字符串,主要用在各种www客户程序和服务器程序上。采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。URL的格式由三部分组成:协议(服务方式);存有该资源的主机IP地址(有时也包括端口号);主机资源的具体地址,如目录和文件名等。

0 0
原创粉丝点击