Python爬取网页时的#号是为了区分什么

来源：互联网发布：表达知错的句子编辑：程序博客网时间：2024/05/21 19:47

‘#’在html中代表的是锚点，用来进行页面内或页面间之间的跳转，是网页制作中超级链接的一种，又称为命名锚点。命名锚记像一个迅速定位器一样是一种页面内的超级链接，运用相当普遍。

1.在页面内设置锚点可以方便页面不同部分之间的跳转。比如一篇很长的文章，你想按分段精确来看，那就可以用到锚点了。
例如：
<a href="#study">跳转到study</a>———跳转到页面内某study处

2.在不同的页面之间设置锚点，从而访问某页面某锚点的内容。
例如想要访问abc.html中某study锚点的内容：
<a href="abc.html#study>访问abc网页中的study锚点</a>————-访问abc网页中的study锚点

所以用Python爬取网页时，在利用算法通过一个页面内的网页链接链接到其他网页时，在处理a标签的href属性内容时，需要考虑’#’的存在，通过将’#’用split函数去除，提取出来前面的网页链接部分（例如提取出abc.html）进行访问。

实现代码：url=url.spilt('#')[0]———-用split函数按’#’分割，并取列表中的第一部分作为Url部分访问

阅读全文

0 0