Python 正则表达式,html标签 提取

来源:互联网 发布:植物折纸软件 编辑:程序博客网 时间:2024/06/05 07:56

标签:

import remystr1="<title>helloworld</title>"res=re.match("<\w*>\w*</\w[a-zA-Z]*>",mystr1)   #前后标签不一样也能匹配print(res)#(\w*)和\\1 对应匹配,前面的必须加括号res1=re.match("<([a-zA-Z]*)>\w*</\\1>",mystr1)  #前后标签必须一样才能匹配 print(res1)
嵌套标签:

import remystrs="<HTML><title>百度一下,你就知道 </title></HTML>"#标签对称,(\w*) (\w*)  \\2 \\1 必须对称,相等,前面标签必须有括号res=re.match("<(\w*)><(\w*)>.*</\\2></\\1>",mystrs)print(res)
标签名称:
import  re#(?P<name1>) 取名称为name1   (?P=name1)和名称是name1的正则表达式对应mystrs="<HTML><title>百度一下,你就知道 </title></HTML>"res=re.match("<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>",mystrs)print(res)


阅读全文
0 0
原创粉丝点击