用正则表达式处理字符串中的分组问题

来源:互联网 发布:市场分析数据来源 编辑:程序博客网 时间:2024/06/05 13:30

碰到'122333<<<<'这种字符串,要将其连贯的部分取出,得出['1', '22', '333', '<<<<']这样的列表,能想到的常规办法,遍历字符串,后一个与前一个逐个比较,这样真的很麻烦!

实际上可以借助itertools模块的groupby()方法来处理:

import itertoolsStr = '122333<<<<'Lst = []for key,group in itertools.groupby(s):    Lst.append(list(group))print map(lambda x: ''.join(x), Lst)

上面的处理,还是比较有技巧,也能得到想要的输出结果

['1', '22', '333', '<<<<']


但更酷点,更技巧处理方式是用正则表达式来处理:

import reStr = '122333<<<<'Lst = []Pat = re.compile(r'((.)\2*)')Rst = [x[0] for x in re.findall(Pat, Str)]print Rst
备注:

1. (.)                # .匹配任意字符;(.)做分组,方便后面反向引用

2. \2*                # \2对里面括号的反向引用;*代表是0个到多个; 

3. ((.)\2*)           # 连起来就是任意一个或多个字符组成的分组;

4. (.)\1*             # 这种方式则可以取出唯一的值['1', '2', '3', '<'];同样非常方便


原创粉丝点击