KMP算法

来源:互联网 发布:mac 10.10 u盘制作 编辑:程序博客网 时间:2024/05/19 04:51

该算法解决的问题是:给一个字串,求其在主串中的位置。

该问题最简单的解法是:两个遍历,最差的时间复杂度O(M*N)

所以改进,用KMP算法,时间复杂度是O(n+m),核心是先得到一个字串的next[]数组,用来存放当与主串匹配,不匹配时,回退的位置。

while(i<masterLen && j<subLen){    if(j==0 || *(sMaster+i) == *(sSub+j)) { i++;j++; }    else j = next[j];}if(j>subLen) return i-sublen; else return 0;

关键就是求next[]数组,next数组与模式串单独有关,与主串无关。

理解分析:

当S1,S2...Sn主串与模式串P1,P2...Pn进行比较,当出现Si != Pj时,S中的i 不需要回溯,只需要直接与P中的next[j],进行比较。 

假设k=next[j],则P中前k-1元素必然满足(k<j,k必须小于j):

P1P2...Pk-1 = Si-k+1,Si-k+2...Si-1; 

而在Si != Pj失配时,则有等式:

Si-k+1,Si-k+2...Si-1 = Pj-k+1...Pj-1;

所以有等式:

P1,P2...Pk-1=Pj-k+1...Pj-1;

由此可见,k的值next[j] 是与模式串本身有关,与主串无关的。那么next[j]的值如何求?

分三种情况:

1.j=1时 next[j] = 0;

2.存在P1,P2...Pk-1=Pj-k+1...Pj-1; 时 next[j] = Max{k|1<k<j  P1,P2...Pk-1=Pj-k+1...Pj-1不为空}

3.next[j] = 1; 其他情况

代码如下:

void getNext(String T,int[] next){    next[1] = 0;i = 1;j = 0;while(i<T.len)if(j==0 || T[i] == T[j]){i++;j++;next[i] = j;}else{j = next[j];}}}
设计的很巧妙。

当出现字串'aaaab'时,其实前面一串字母相同,遇到不匹配时其实会出现多往前匹配的情况,比如比到主串是'aaabaaaab',所以对于重复的字串应该做改进算法:

void getNext(String T,int[] next){    next[1] = 0;i = 1;j = 0;while(i<T.len)if(j==0 || T[i] == T[j]){i++;j++;if(T[i] != T[j])next[i] = j;else next[i] = next[j];}else{j = next[j];}}}

这样就会避免如此问题。