字符串匹配算法

来源:互联网 发布:linux设置root密码 编辑:程序博客网 时间:2024/06/18 06:19

字符串匹配算法


主要根据《算法导论》总结了以下几种字符串匹配算法

  • 朴素字符串匹配算法
  • KMP算法
  • Rabin-Karp算法
  • 有限状态自动机


    A. 朴素字符串匹配算法

    文本串是T[1…n],模式串是P[1…m],其中mn,s为有效偏移量。
    通过一个循环找到所有有效偏移,并对n-m+1个可能的s值进行检测(0snm),看是否满足条件P[1…m]=T[s+1…s+m]

    NAIVE-STRING-MATCHER(T,P) pseudocode

1  n=T.length2  m=P.length3  for s=0 to s=n-m4      if P[1...m]=T[s+1...s+m]5          printf "patterns occur with shift" s

说明:

第3-5的for循环考察每一个可能的偏移,第4行用于确定当前偏移是否有效,隐藏了一个循环,用于逐个监测对应位置上的字符。

算法复杂度分析:

最坏情况下,朴素匹配算法运行时间为Θ((nm+1)m),由于不需要预处理,朴素字符串匹配算法运行时间即为其匹配时间。

相较于KMP算法,朴素算法的效率不高,因为即使有无效偏移存在时,它也只关心一个有效偏移,而完全忽略了检测无效s值时获得的文本信息。


B. KMP算法

*KMP算法思路:
KMP算法思路
英文参考资料Posted by Jake Boxer

算法思路已经很清晰地在这两份资料中展现了,下面一个问题是next数组以及nextval数组。

next[j]=k:
k是模式中第j个字符与文本中相应的字符“失配”时,在模式中重新和主串中该字符进行比较的字符的位置。

nextval[j]:
nextval[1]=0, 看第j字符和第next[j]字符是否相等,若相等,则nextval[j]=nextval[next[j]];若不等,则nextval[j]=next[j]

说明:在我的版本中j是从1开始的,有些资料是从0开始的。

0 0
原创粉丝点击