[python每日一练]--0009:找出html里的链接

来源:互联网 发布:淘宝信用卡办理条件 编辑:程序博客网 时间:2024/05/23 17:59

题目链接:https://github.com/Show-Me-the-Code/show-me-the-code
我的github链接:https://github.com/wjsaya/python_spider_learn/tree/master/python_daily
个人博客地址:https://wjsaya.github.io
第 0009 题:一个HTML文件,找出里面的链接。

思路:

  1. 打开html文件;
  2. 逐行读取文件;
  3. 通过正则表达式匹配http://之类的开头的链接即可。

代码:

#!/usr/bin/env python3#coding: utf-8#Auther: wjsaya#第009题,一个HTML文件,找出里面的链接。import reimport osdef analyze(file_name):    #print (os.listdir())    print (os.getcwd())    line = open(file_name,'r',encoding='utf-8').read()    R = (r'([hftps]+://[^\s]*)"')    for i in  (re.findall(R, line)):        print (i)if __name__ == "__main__":     html = "./test.html"    analyze(html)

效果图:

0009

原创粉丝点击