[python每日一练]--0009:找出html里的链接
来源:互联网 发布:淘宝信用卡办理条件 编辑:程序博客网 时间:2024/05/23 17:59
题目链接:https://github.com/Show-Me-the-Code/show-me-the-code
我的github链接:https://github.com/wjsaya/python_spider_learn/tree/master/python_daily
个人博客地址:https://wjsaya.github.io
第 0009 题:一个HTML文件,找出里面的链接。
思路:
- 打开html文件;
- 逐行读取文件;
- 通过正则表达式匹配http://之类的开头的链接即可。
代码:
#!/usr/bin/env python3#coding: utf-8#Auther: wjsaya#第009题,一个HTML文件,找出里面的链接。import reimport osdef analyze(file_name): #print (os.listdir()) print (os.getcwd()) line = open(file_name,'r',encoding='utf-8').read() R = (r'([hftps]+://[^\s]*)"') for i in (re.findall(R, line)): print (i)if __name__ == "__main__": html = "./test.html" analyze(html)
效果图:
阅读全文
0 0
- [python每日一练]--0009:找出html里的链接
- [python每日一练]--0008:找出html中正文
- 每日一练(python版本)
- Python每日一练--------异常处理
- [python每日一练]--0006:单词统计
- [python每日一练]--0007:代码统计
- 每日一练-----简单的计算器
- 算法每日一练
- 每日一练
- 每日一练
- 每日一练
- 每日一练
- 每日一练
- 每日一练
- 每日一练
- 每日一练
- 每日一练
- 每日一练
- delphi中更新表字段update BLOB型数据(image)/获取图片转成BLOB型存入数据库
- JavaScript学习——变量的作用域
- js 获取服务器时间和new Date()用法
- VxWorks6.9上以太网2层发包程序
- jQuery选择器大全
- [python每日一练]--0009:找出html里的链接
- <<运算符和进制
- 简化版stack
- 解决eclipse中logcat不显示log的问题
- AB1601 Makefile钟优化的问题
- 布局
- Spring Cloud..微服务架构技术整理
- 比特币源码学习笔记
- mybatis中一对多