Python爬虫学习纪要(五):正则表达式2

来源:互联网 发布:sql server怎么导入表 编辑:程序博客网 时间:2024/06/06 18:19

三、Match:

1).string:匹配时使用的文本
2).re:匹配时使用的Pattren对象
3).pos:文本中正则表达式开始搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同
4).endpos:本中正则表达式结束搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同
5).lastindex:最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组,将为None
6).lastgroup: 最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组,将为None


方法:
1).group([group1, …]);获得一个或多个分组截获的字符串;指定多个参数时将以元组形式返回
2).groups([default]):以元组形式返回全部分组截获的字符串
3).groupdict([default]):返回以有别名的组的别名为键、以该组截获的子串为值的字典,没有别名的组不包含在内
4).start([group]):返回指定的组截获的子串在string中的起始索引(子串第一个字符的索引)
5).end([group]):返回指定的组截获的子串在string中的结束索引(子串最后一个字符的索引+1)
6).span([group]):返回(start(group), end(group))。
7).expand(template):将匹配到的分组代入template中然后返回。


四、.Pattren:
Pattern对象是一个编译好的正则表达式,通过Pattern提供的一系列方法可以对文本进行匹配查找。Pattern不能直接实例化,必须使用re.compile()进行构造。
1).pattern: 编译时用的表达式字符串。
2).flags: 编译时用的匹配模式。数字形式。
3).groups: 表达式中分组的数量。
4).groupindex: 以表达式中有别名的组的别名为键、以该组对应的编号为值的字典,没有别名的组不包含在内。

方法:
1).match(string[, pos[, endpos]]) | re.match(pattern, string[, flags]):
这个方法将从string的pos下标处起尝试匹配pattern;如果pattern结束时仍可匹配,则返回一个Match对象;如果匹配过程中pattern无法匹配,或者匹配未结束就已到达endpos,则返回None

2).search(string[, pos[, endpos]]) | re.search(pattern, string[, flags]):
这个方法用于查找字符串中可以匹配成功的子串。从string的pos下标处起尝试匹配pattern,如果pattern结束时仍可匹配,则返回一个Match对象;若无法匹配,则将pos加1后重新尝试匹配;直到pos=endpos时仍无法匹配则返回None

原创粉丝点击