梳理——后缀数组应用

来源:互联网 发布:2016最好的网络机顶盒 编辑:程序博客网 时间:2024/06/07 03:12

// 难度从 * ~ ***** 递增,*为简单

一、一个字符串

1.POJ 1743——不可重叠的最长重复子串
题意:给一个字符串,求重复出现的子串中最长的, 子串不能重叠。
难度:*
算法&&技巧:如果是求可以重叠直接找 Height 数组中最大的就可以,但是要不能重叠,就需要二分答案,并按照二分的结果把 Height 分组, 判断存在的条件是某一组中 sa 的最大最小值相减大于二分长度。

2.POJ 3261——可重叠并且出现至少K次的最长子串
题意:给一个字符串,求在字符串中出现至少K次的子串,子串可以重叠。
难度:*
算法&&技巧:和上一题一样,二分然后分组,如果某组内的个数大于等于K个,return true。

3.SPOJ 694 & 705——子串个数
题意:给定一个字符串,求它不同的子串的个数。
难度:*
算法&&技巧:知道第 i 个后缀对子串个数的贡献是:n - sa[i] - h[i],就可以了。

4.URAL1297——最长回文子串

题意:给定一个字符串,求最长的回文子串。
难度:**
算法&&技巧:关键是把字符串翻转,再将原串和翻转后的拼起来。然后在以每个字符为中心求最大的。就是找两个后缀的LCP,用RMQ预处理。

5.POJ2406——字符串的循环节

题意:给定一个字符串,求最短的循环节(也就是最长循环多少次)。
难度:*~**
算法&&技巧:和KMP的做法类似,枚举循环节长度K,看suffix(1)和suffix(K + 1)的LCP长度是否为n-K,是的话就是循环节,否则不是。因为suffix(1)固定,所以RMQ所有到suffix(1)的就行。

6.POJ3693——重复次数最多的连续重复子串
题意:给定一个字符串,求连续重复次数最多的子串。
难度:***
算法&&技巧:暴力枚举子串循环节长度L,那么重复子串一定包括s[0], s[L], s[L*2]...这些字符中的相邻两个,枚举这些字符,向前向后匹配,更新答案。其中向后匹配和上几题一样用RMQ求LCP就行,而向前我们暴力平移,只需要向前平移最多L-1个,因为再往前是L的倍数,上一层枚举的L*i会包括它。

小结:
单个字符串的问题还是比较简单的,通常离不开Height数组。常见的技巧有二分答案,将H数组分组。同时还有一些小模型:1、求不同子串个数:每个后缀的贡献是n - sa[i] - h[i]。2、重复子串 = 某两个后缀l,r的最长公共前缀 = min{H[R[l] ~ R[r]]}。可以用RMQ做到O(nlogn) 预处理,O(1)查询。

二、两个字符串

1.POJ 2774——最长公共子串
题意:给两个长度不超过 100000 的字符串,求他们的最长公共子串。
难度:*
算法&&技巧:字符串拼接, 后缀数组,找 Height 数组中最大的(注意特判两个是否属于不同字符串)


2.POJ 3415——长度不小于K的公共子串个数

题意:给定两个字符串,求长度不小于K的公共子串的个数。
难度:***
算法&&技巧:字符串拼接,若属于a串的后缀p和属于b串的后缀q,它们的LCP长度因为L,则他们对答案的贡献为L-K+1。但是两两枚举复杂度太大。注意到之前小结提到的小模型2,LCP具有可以用单调栈维护。对于a的每个后缀找和它LCP大于等于K的b的后缀,统计答案,加入单调栈,此时如果最后加入的比原来的小,说明LCP更新了,减去之前变得不合法的就行了。对于b串再做一次即可。


小结:
感觉两个字符串的题目差不多都和公共的什么有关,比如公共子串,公共前缀什么的。有一个经典的做法:把两个字符串拼起来,中间用没出现过的字符相连。然后剩下的就和一个字符串的差不多了。


三、多个字符串

1.POJ 3294——出现在至少K个字符串中的最长子串
题意:给N个字符串,求出现在至少K个字符串中的最长子串。
难度:*
算法&&技巧:类似两个字符串的方法,把N个字符拼起来。后缀数组求H数组。二分答案对H数组分组,看每组中不同字符串的个数是否大于等于K。

2. SPOJ 220——出现每个字符串中至少两次且不重叠的最长子串
题意:给N个字符串,求出现每个字符串中至少两次且不重叠的最长子串
难度:**
算法&&技巧:和上一道题相似,不同的是分组后看是不是在每个字符串中都出现,且两次出现的位置之差大于等于串的长度。

3.POJ 1226——出现或者翻转后出现在每个i字符串中的最长子串
题意:给N个字符串,求出现或者翻转后出现在每个字符串中的最长子串
难度:**
算法&&技巧:和POJ 3294一样,只需要先将每个字符串翻转,并和原字符串拼起来,再把n个这样的字符串拼起来,之后的方法就完全一样了。

小结:
多个和两个的方法都基本一样,就是都拼起来,中间用没出现过的字符连接。但是因为有N个字符串,最后处理的时候应该都需要用二分,分组或者别的数据结构什么的维护,就是要降低时间复杂度,不然就成了O(n^2)了。



0 0