使用Python语言写一个简单的KMP模式匹配算法实现

来源:互联网 发布:矮个子 穿着 知乎 编辑:程序博客网 时间:2024/06/06 05:53
  • KMP算法简介
    KMP算法,是由Knuth,Morris,Pratt共同提出的模式匹配算法,其对于任何模式和目标序列,都可以在线性时间内(O(m+n):m和n分别为模式字符串与主串的长度)完成匹配查找,而不会发生退化,是一个非常优秀的模式匹配算法。
    KMP模式匹配的关键点在于该算法会根据模式字符串生成一个Next跳转表。
    Next[j]的值表明,在前j个字符中,从第一个字符开始的next[j]个字符与 j-next[j]+1至 j-1 个字符是相互匹配的!
    因此在字符串匹配时,一旦发生不匹配,算法并不是将模式串移动1位,再从头开始匹配,而是直接将模式字符串向右移动next[j]位,再进行匹配。
    更多关于KMP算法的原理内容,请参考:joylnwang的专栏
    文章

  • 使用Python语言实现KMP匹配算法

    • 如何根据模式字符串生成跳转表Next[]
    • 如何根据Next{]以及模式字符串和主串进行模式匹配
  • 以下代码为Python语言的KMP实现:

    • 声明了一个类myKMP,在构造函数中调用create_next生成跳转表
    • 需要说明:本文中的next结果要比常见使用的next的值少1(因为list的下标从0开始)
    • 调用kmp函数可以完成模式匹配并返回结果
    • 一些需要注意的地方写在了程序的注释中
class myKMP(object):    '''    构造函数:根据传入的模式字符串,生成next[],存储在list_next中    '''    def __init__(self,ss):        self.int_len = len(ss);  # 计算模式字符串的长度        self.list_next = self.create_next(ss);     #构造next跳转表        self.string_module = ss;   #存储模式字符串        print(self.list_next)   #输出显示next跳转表    def create_next(self,ss):    '''    function:next 的构造过程    input: 模式字符串    '''        list_next = [];                   list_next.append(-1);      #将-1添加到list中        i = 0;        j = -1;        lenOfSs = len(ss);       #求模式字符串ss的长度        # 注意:这里比较的对象是ss的长度减去1         # 如果是 while( i < lenOfSs) 会导致NEXT的长度比实际长度多1        # 因为在一开始时已经将-1放入了list_next中,作为第一个字符的跳转值        while( i < lenOfSs -1):                if(j == (-1) or ss[i] == ss[j]):         # 如果满足条件                print((i,j, ss[i],ss[j]))                i=i+1                j=j+1                list_next.append(j);            else:            #如果不满足字符相等的条件,执行该语句,而不是从0开始寻找最长相等的前缀与后缀的长度!!!简化计算                j = list_next[j]               return list_next;    def kmp(self,main_ss,outputRes=False):    '''    function:模式匹配,若存在匹配字符串,返回匹配段的起点下标,否则返回False    input: 主串、是否输出结果的标志位    '''        i = 0;   #指向主串 main_ss        j = 0;   #指向模式串 ss        while( j < self.int_len and i < len(main_ss) ):            if( main_ss[i] == self.string_module[j]):  #当前字符匹配                i=i+1                j=j+1            elif( j == 0):    #如果第一个模式串的字符就不匹配,则移动指向主串的指针                i =i+1;            else:            #否则将指向模式串的指针移动至 list_next[j]处                j = self.list_next[j];        if( j == self.int_len ):  #如果完成匹配时,j指向模式串的串尾,则匹配成功            if(outputRes):                print('The res: ',(True, i-self.int_len))            return (True, i-self.int_len);        else:            return False;

说明:Python初学者,如有谬误欢迎指正!

0 0
原创粉丝点击