Python爬取网页时的#号是为了区分什么
来源:互联网 发布:表达知错的句子 编辑:程序博客网 时间:2024/05/21 19:47
‘#’在html中代表的是锚点,用来进行页面内或页面间之间的跳转,是网页制作中超级链接的一种,又称为命名锚点。命名锚记像一个迅速定位器一样是一种页面内的超级链接,运用相当普遍。
1.在页面内设置锚点可以方便页面不同部分之间的跳转。比如一篇很长的文章,你想按分段精确来看,那就可以用到锚点了。
例如: <a href="#study">跳转到study</a>
———跳转到页面内某study处
2.在不同的页面之间设置锚点,从而访问某页面某锚点的内容。
例如想要访问abc.html中某study锚点的内容: <a href="abc.html#study>访问abc网页中的study锚点</a>
————-访问abc网页中的study锚点
所以用Python爬取网页时,在利用算法通过一个页面内的网页链接链接到其他网页时,在处理a标签的href属性内容时,需要考虑’#’的存在,通过将’#’用split函数去除,提取出来前面的网页链接部分(例如提取出abc.html)进行访问。
实现代码:url=url.spilt('#')[0]
———-用split函数按’#’分割,并取列表中的第一部分作为Url部分访问
阅读全文
0 0
- Python爬取网页时的#号是为了区分什么
- 人的存在是为了什么?
- 读书的目的是为了什么
- 卢安克:这样的生活是为了什么
- 我们的工作到底是为了什么?
- 我的存在是为了什么?
- 活着是为了什么?
- 活着是为了什么?
- 忙碌是为了什么~
- 考试是为了什么
- 工作是为了什么
- Adapter是为了什么?
- controller as vm的用法是为了区分
- python爬取网页
- Python 网页爬取
- python爬取网页的时11004错误
- Python爬取一个网页的图片
- Python爬取网页的编码处理
- HDU6025 Coprime Sequence【前缀GCD+后缀GCD】
- 循环日程表问题
- JAVASE_程序的类型及构成
- 初学Android Studio
- 鼠标拖动文字
- Python爬取网页时的#号是为了区分什么
- AJAX内容
- ConstraintLayout(约束布局)
- Biomechanical Design of the Berkeley Lower
- Sensing Pressure Distribution on a Lower-Limb Exoskeleton
- Android中Fragment的使用
- C# 面向过程 猜拳游戏
- js 开发遇到的问题
- Kotlin学习(一)简单了解下Kotlin