深入理解URL

来源:互联网 发布:国际数据分析师证书 编辑:程序博客网 时间:2024/06/05 16:31
在理解URL之前,首先要理解URI的概念。
什么是URI?Web上每种可用的资源,如:Html文档,图像,视频片段,程序等都有一个通用资源
标识符(Universal Resource Identifier即URI)进行定位
URI通常由三部分构成:
1.访问资源的命名机制
2.存放资源的主机名
3.资源自身的名称,由路径表示。
如下面的URI:http://www.webmonkey.com.cn/html/html40/
我们可以这样解释它:这是一个通过http协议访问的资源,位于主机www.webmonkey.com.cn上,通过路径“html/html40”访问


URL是URI的一个子集,它是Uniform Resource Locator的缩写,译为“统一资源定位符”。URL的格式由三部分组成:
1.第一部分是协议(或称服务方式)
2.第二部分是存有该资源的主机IP地址(有时也包括端口号)
3.第三部分是主机资源的具体地址,如目录和文件名等。
第一部分和第二部分用“://”符号隔开,第二部分和第三部分用“/”隔开,第一部分和第二部分是不可缺少的,第三部分有时也可以省略


常用的两种Http协议的URL例子:
1.HTTP协议的URL示例
使用超级文本传输协议HTTP,提供超级文本信息服务的资源。例:http://www.peopledaily.com.cn/channel/welcome.htm
2.文件的URL
用URL表示文件时,服务器方式用file表示,后面要有主机ip地址,文件的存取路径(即目录)和文件名等信息,有事可以省略目录和文件名,但“/”符号不能省略
例file://ftp.yoyodyne.com/pub 代表主机ftp.yoyodyne.com上的目录/pub

例:file://ftp.yoyodyne.com/  代表主机ftp.yoyodyne.com的根目录

爬虫要处理的对象就是URL,它根据URL地址取得所需要的文件内容,然后对它进行进一步的处理。因此,准确的理解URL对理解网络爬虫至关重要。从下一节开始,我们将详细的讲述如何根据URL地址来获得网页内容。

0 0
原创粉丝点击