【经典算法】:KMP算法的实现
来源:互联网 发布:淘宝模特红人男 编辑:程序博客网 时间:2024/05/24 03:05
KMP算法模式匹配分析:
举例来说,有一个字符串"BBC ABCDAB ABCDABCDABDE",我想知道,里面是否包含另一个字符串"ABCDABD"?
许多算法可以完成这个任务,Knuth-Morris-Pratt算法(简称KMP)是最常用的之一。它以三个发明者命名,起头的那个K就是著名科学家Donald Knuth。
这种算法不太容易理解,网上有很多解释,但读起来都很费劲。直到读到Jake Boxer的文章,我才真正理解这种算法。下面,我用自己的语言,试图写一篇比较好懂的KMP算法解释。
1.
首先,字符串"BBC ABCDAB ABCDABCDABDE"的第一个字符与搜索词"ABCDABD"的第一个字符,进行比较。因为B与A不匹配,所以搜索词后移一位。
2.
因为B与A不匹配,搜索词再往后移。
3.
就这样,直到字符串有一个字符,与搜索词的第一个字符相同为止。
4.
接着比较字符串和搜索词的下一个字符,还是相同。
5.
直到字符串有一个字符,与搜索词对应的字符不相同为止。
6.
这时,最自然的反应是,将搜索词整个后移一位,再从头逐个比较。这样做虽然可行,但是效率很差,因为你要把"搜索位置"移到已经比较过的位置,重比一遍。
7.
一个基本事实是,当空格与D不匹配时,你其实知道前面六个字符是"ABCDAB"。KMP算法的想法是,设法利用这个已知信息,不要把"搜索位置"移回已经比较过的位置,继续把它向后移,这样就提高了效率。
8.
怎么做到这一点呢?可以针对搜索词,算出一张《部分匹配表》(Partial Match Table)。这张表是如何产生的,后面再介绍,这里只要会用就可以了。
9.
已知空格与D不匹配时,前面六个字符"ABCDAB"是匹配的。查表可知,最后一个匹配字符B对应的"部分匹配值"为2,因此按照下面的公式算出向后移动的位数:
移动位数 = 已匹配的字符数 - 对应的部分匹配值
因为 6 - 2 等于4,所以将搜索词向后移动4位。
10.
因为空格与C不匹配,搜索词还要继续往后移。这时,已匹配的字符数为2("AB"),对应的"部分匹配值"为0。所以,移动位数 = 2 - 0,结果为 2,于是将搜索词向后移2位。
11.
因为空格与A不匹配,继续后移一位。
12.
逐位比较,直到发现C与D不匹配。于是,移动位数 = 6 - 2,继续将搜索词向后移动4位。
13.
逐位比较,直到搜索词的最后一位,发现完全匹配,于是搜索完成。如果还要继续搜索(即找出全部匹配),移动位数 = 7 - 0,再将搜索词向后移动7位,这里就不再重复了。
14.
下面介绍《部分匹配表》是如何产生的。
首先,要了解两个概念:"前缀"和"后缀"。 "前缀"指除了最后一个字符以外,一个字符串的全部头部组合;"后缀"指除了第一个字符以外,一个字符串的全部尾部组合。
15.
"部分匹配值"就是"前缀"和"后缀"的最长的共有元素的长度。以"ABCDABD"为例,
- "A"的前缀和后缀都为空集,共有元素的长度为0;
- "AB"的前缀为[A],后缀为[B],共有元素的长度为0;
- "ABC"的前缀为[A, AB],后缀为[BC, C],共有元素的长度0;
- "ABCD"的前缀为[A, AB, ABC],后缀为[BCD, CD, D],共有元素的长度为0;
- "ABCDA"的前缀为[A, AB, ABC, ABCD],后缀为[BCDA, CDA, DA, A],共有元素为"A",长度为1;
- "ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA],后缀为[BCDAB, CDAB, DAB, AB, B],共有元素为"AB",长度为2;
- "ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB],后缀为[BCDABD, CDABD, DABD, ABD, BD, D],共有元素的长度为0。
16.
"部分匹配"的实质是,有时候,字符串头部和尾部会有重复。比如,"ABCDAB"之中有两个"AB",那么它的"部分匹配值"就是2("AB"的长度)。搜索词移动的时候,第一个"AB"向后移动4位(字符串长度-部分匹配值),就可以来到第二个"AB"的位置。
(完)
输入代码:
- #include<iostream>
- #include<string>
- #define MaxSize 100
- using namespace std;
- typedef struct
- {
- char data[MaxSize];
- int length;
- } SqString;
- void StrAssign(SqString &s,char cstr[])
- {
- int i;
- for(i=0; cstr[i]!='\0'; i++)
- s.data[i]=cstr[i];
- s.length=i;
- }
- void DispStr(SqString s)
- {
- int i;
- if(s.length>0)
- {
- for(i=0; i<s.length; i++)
- cout<<s.data[i];
- cout<<endl;
- }
- }
- void GetNext(SqString t,int next[])
- {
- int j,k;
- j=0;
- k=-1;
- next[0]=-1;
- while(j<t.length-1)
- {
- if(k==-1||t.data[j]==t.data[k])
- {
- j++;
- k++;
- next[j]=k;
- }
- else
- k=next[k];
- }
- }
- int KMPIndex(SqString s,SqString t)//KMP算法
- {
- int next[MaxSize],i=0,j=0;
- GetNext(t,next);
- while(i<s.length&&j<t.length)
- {
- if(j==-1||s.data[i]==t.data[j])
- {
- i++;
- j++;//i,j各自加1
- }
- else
- j=next[j];//i不变,j后退
- }
- if(j>=t.length)
- return (i-t.length);//返回匹配模式串的首字母下标
- else
- return (-1);//返回不匹配标志
- }
- int main()
- {
- SqString s,t;
- int next[MaxSize];
- StrAssign(s,"abcaabbabcabaacbacba");
- StrAssign(t,"abcabaa");
- cout<<"串s: ";
- DispStr(s);
- cout<<"串t: ";
- DispStr(t);
- GetNext(t,next);
- cout<<"next数组的值为:";
- for(int i=0; i<t.length; i++)
- {
- cout<<next[i]<<" ";
- }
- cout<<endl;
- cout<<"t的首字符在s的第"<<KMPIndex(s,t)<<"位开始匹配"<<endl;
- return 0;
- }
运行截图:
算法分析博文出处: 点击---->字符串匹配的KMP算法
- 【经典算法】:KMP算法的实现
- 经典的kmp算法教程
- KMP算法的实现
- KMP算法的实现
- KMP算法的实现
- KMP算法的实现
- KMP算法的实现
- kmp算法的实现
- kmp算法的实现
- KMP算法的实现
- KMP算法的实现
- KMP算法的实现
- KMP算法的实现
- KMP算法的实现
- KMP算法的实现
- KMP算法的实现
- KMP算法的实现
- KMP经典算法
- Qt5 窗口关闭信号的响应~
- iOS仿喜马拉雅FM做的毕业设计及总结(含新手福利源码)
- wordpress优秀站点
- 参数嗅探(Parameter Sniffing)(1/2)
- 干货——iOS本地推送与远程推送详解
- 【经典算法】:KMP算法的实现
- Excel及各种文件,生成以后不能直接上传
- 利用OpenCV的threshold函数实现双阈值法二值化操作的源码!
- Java内存区域与内存溢出(JVM)
- 机器学习之 weka学习(六)最大内存
- 将dip或dp值转换为px值,保证尺寸大小不变
- Java Mvn 添加依赖的jar包
- android-PullRefreshLayout——Android下拉刷新布局组件
- 计算机网络分类