文章标题

来源:互联网 发布:淘宝买家骗局 编辑:程序博客网 时间:2024/06/06 19:49

Url 通用资源标志符(Universal Resource Identifier)
URI有三部分组成,

  1. 访问资源的命名机制
  2. 存放资源的主机名
  3. 资源自身的名字
    URL 统一资源定位符
    采用URL可以用一种统一的格式来描述各种信息资源,包括文件,目录,服务器的地址等URL有三部分是组成

  4. 第一部分是协议

  5. 第二部分是存有该资源的主机IP地址(有时包括端口号)
  6. 第三部分是主机资源的具体地址,如目录和文件
    第一部分与第二部分用://隔开,第二部分与第三部分用/隔开,第一部分与第二部分是不可缺少的,但是第三部分有时是可以忽略的。

  7. 使用超级文本协议的HTTP

  8. URL表示文件时,服务器方式用file表示,后面有主机IP,文件的存取路径(即目录)和文件名等信息,有时可以省略文件名和目录,但是/不能省
    * 爬虫最主要的处理对象是是URL*它根据URL地址获取所需要的文件内容,然后对它进行进一步的处理,因此准确地理解URL对理解网络爬虫至关重要
    。所谓网页抓取就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端,然后读取服务器端响应的资源
0 0