KMP题目分析与总结

来源:互联网 发布:linux 卸载 工具 编辑:程序博客网 时间:2024/06/15 11:39

前言

本篇文章不阐述KMP算法流程与实现方式,网上有很多对KMP算法进行详细阐述的文章,至于KMP的实现方式,特别推荐刘汝佳版本的KMP算法,简单易懂且易于实现。
本篇文章主要针对常见的KMP问题进行剖析,提供一些思路供反思、参考、交流。

KMP能够解决的问题

KMP可以有效解决大部分单匹配问题,KMP算法的复杂度是O(M+N),这是十分高效的。

KMP核心问题——F数组(NEXT数组)

F数组是整个KMP问题的核心(刘汝佳版本的KMP称为F数组,大部分KMP资料称为NEXT数组)。几乎所有KMP题目都是针对F数组来进行考察。
F数组实质上是针对KMP算法的状态转移图进行的一个诠释,F数组的意义在于某一字符失配以后,跳转到可能匹配的位置继续进行匹配,从而节省了时间。

KMP问题分析思路一——打表找规律

几乎所有的KMP题目都是在F数组上做文章,实际上F数组能做的花样并不是很多,所以将F数组打表,观察样例和表之间的联系,就很有可能找到规律,从而解决问题。

例题一:POJ 2752
问一个字符串,前缀和后缀相同的前缀长度可能是多少?
例如:ababcababababcabab
前缀长度为2 4 9 18时,前缀和后缀长度相同

解题思路:
对于这道题,刚拿到题就开始分析,其实是比较慢的。最佳的方法是将样例的f表打一下,看有什么规律。
打表以后,很容易就能发现f[18]=9,f[9]=4。发现这个规律以后,这道题便迎刃而解。

为了论证打表找规律的实用性,我决定再选择一道题,进行论证和分析。

例题二:POJ 2406
给一个字符串,问这个字符串是由多少个子串循环组成
例如:ababab 该字符串就是由3个ab组成

解题思路:
依然是打表,打表完成以后就能发现”ababab”的f[6]=4。n-f[n]便是循环子串的长度。判断一下n能否整除循环子串长度,能整出答案就为整除结果。若不能整除,则答案为1。

由上面两道例题可知,打表在KMP题目中对于发现解决方案起着至关重要的作用

KMP问题分析思路二——推理验证

推理验证并不是一个很好的发现解决方案的途径,尽管推理论证得到的方案会很合理。在大多数情况下,打表是发现解决方案的最佳途径,而推理论证只不过是验证解决方案的正确性。
若想要推理验证,那边需要对KMP算法的F数组有着较为深刻的理解。
在这里,继续选择上面两道例题进行推理验证。

例题一

这道题根据打表找出的规律进行推理分析倒也不难,F数组的作用就是如果不匹配,则转移到可能匹配的位置,这意味着该位置与可能匹配位置的前缀相同。继续拿样例进行分析。f[18]=9。这就意味着18号位置的前缀等于9号位置以前的字符,因为只有这样子,才可能匹配。如果18号位置的前缀与9号位置以前的字符存在不等的情况,那么匹配转移的时候必然不会转移到9号位置。总之,无论怎样论证,该规律总是正确的。

例题二

这道题的论证也很容易,循环子串的长度就是该循环子串到上一个子串的长度。因此,如果长度恰好为循环子串的整数倍,那么n-f[n]恰好就是一个子串的长度。从而可证明该规律正确。

通过上述两段论证,我们可以了解两道例题通过打表所寻找到的规律的正确性。推理论证不失为验证规律的一个好办法。

总结

本篇文章通过两道例题,分析了KMP题目中常用的解题思路。打表找规律+推理验证基本上可以解决大部分与KMP有关的问题。本篇文章提到的解题思路供参考交流,如果有更好的解题思路,欢迎在评论区进行评论。若文章中有错误的地方,也欢迎指正。

原创粉丝点击