Python爬取网页时的#号是为了区分什么

来源:互联网 发布:表达知错的句子 编辑:程序博客网 时间:2024/05/21 19:47

‘#’在html中代表的是锚点,用来进行页面内或页面间之间的跳转,是网页制作中超级链接的一种,又称为命名锚点。命名锚记像一个迅速定位器一样是一种页面内的超级链接,运用相当普遍。

1.在页面内设置锚点可以方便页面不同部分之间的跳转。比如一篇很长的文章,你想按分段精确来看,那就可以用到锚点了。
例如:
<a href="#study">跳转到study</a>———跳转到页面内某study处

2.在不同的页面之间设置锚点,从而访问某页面某锚点的内容。
例如想要访问abc.html中某study锚点的内容:
<a href="abc.html#study>访问abc网页中的study锚点</a>————-访问abc网页中的study锚点

所以用Python爬取网页时,在利用算法通过一个页面内的网页链接链接到其他网页时,在处理a标签的href属性内容时,需要考虑’#’的存在,通过将’#’用split函数去除,提取出来前面的网页链接部分(例如提取出abc.html)进行访问。

实现代码:url=url.spilt('#')[0]———-用split函数按’#’分割,并取列表中的第一部分作为Url部分访问

原创粉丝点击