Python学习——urlparse

来源:互联网 发布:程序员可以兼职吗 编辑:程序博客网 时间:2024/06/05 11:42

在学习Python爬虫的时候,我接触到了叫做urlparse的模块。在定位解析网页的时候,需要使用urlparse确定绝对路径与相对路径。

urlparse模块将url拆成6个部分,以元组的形式返回。主要使用的是urljoin, urlspilt, urlunspilt, urlparse等。

1. urlparse()
urlparse.urlparse(urlstring[, scheme[, allow_fragments]])
以上的形式将urlstring解析成6个部分,并返回元组 (scheme, netloc, path, parameters, query, fragment)。可以用来确定网络协议(HTTP、FTP等等 )、服务器地址、文件路径,等等
这里写图片描述

2. urlunparse()
与urlparse类似的,返回元组(scheme, netloc, path, parameters, query, fragment)。将重新组成一个具有正确格式的URL,以便供Python的其他HTML解析模块使用
这里写图片描述

3. urlspilt()
返回一个包含5个字符串项目的元组:协议、位置、路径、查询、片段。
这里写图片描述

4. urljoin()
urljoin主要是拼接URL,它以base作为其基地址,然后与url中的相对地址相结合组成一个绝对URL地址。函数urljoin在通过为URL基地址附加新的文件名的方式来处理同一位置处的若干文件的时候格外有用。需要注意的是,如果基地址并非以字符/结尾的话,那么URL基地址最右边部分就会被这个相对路径所替换。如果希望在该路径中保留末端目录,应确保URL基地址以字符/结尾。
这里写图片描述

忍别人所不能忍的痛,吃别人所别人所不能吃的苦,是为了收获得不到的收获

0 0
原创粉丝点击