Z-function的构造与应用

来源:互联网 发布:php参考手册 编辑:程序博客网 时间:2024/05/20 07:31

Z-function

  定义一个函数z()z(i)是指由s[i]开始的字串,与s[0]开始的字串可以匹配到多长。也就是说 s[0...z(i)1]=s[i...i+z(i)1]


了解 Z-function


–| 0 1 2 3 4 5 6 7
–+—————————
s | a b a a b a a b
z | 8 0 1 5 0 1 2 0

z(0)abaabaab,长度8。
z(1)Ø,长度0。
z(2)a,长度1。
z(3)abaab,长度5。

  设计此函数的缘由,是因为进行字串匹配的时候,我们总是希望两字串的开头尽可能长得一样。至于为什么取名为z,就得问 paladin8 了。后面将提到如何运用Z function作字串匹配,现在先讲解如何构造Z function。


如何计算Z()

  计算z(),是从左往右算。z(0)是特例,z(0)是整个字串的长度,所以z(0)不用算,由z(1)开始算。
  计算z(i),是运用已经算好的z(j)j<i。也就是指已经算好的某一段s[0...z(j)1]=s[j...j+z(j)1]。首先找出哪一段s[j...j+z(j)1]覆盖了s[i],而且j+z(j)1越右边越好
  
  这里写图片描述
  

一、

如果没有任何一段s[j … j+z(j)-1]覆盖了s[i],表示已经算好的部份都派不上用场。从s[i]与s[0]开始比对,逐字比下去。

这里写图片描述

二、

如果有一段s[j … j+z(j)-1]覆盖了s[i],表示s[i]也会出现在s[0 … z(j)-1]之中,把i映射到对应的位置i’。紧接着再来一次,运用z(i’),也就是指s[0 …. z(i’)-1] = s[i’ … i’+z(i’)-1],如此又把i’映射到字串开头了。

这里写图片描述

二之一、

如果s[i … i+z(i’)-1]短少于s[j … j+z(j)-1]的右端,那就可以直接算出z(i)的答案,就是z(i’)。

这里写图片描述

二之二、

如果s[i … i+z(i’)-1]刚好贴齐s[j … j+z(j)-1]的右端,那就必须检查不确定的部分,直接从s[j+z(j)]与s[j+z(j)-i]继续比对,逐字比下去。

这里写图片描述

二之三、

如果s[i … i+z(i’)-1]凸出了s[j … j+z(j)-1]的右端,则与上一种情形相同。

这里写图片描述
这里写图片描述


时间复杂度

  以字元两两比较的总次数,作为时间复杂度。
  
  j+z(j)-1这个数值会从0开始不断增加。每当字元比对成功时,j+z(j)-1就会跟着增加,下次比对的时候就会从j+z(j)继续比对。j+z(j)-1这个数值的增加次数与比对次数一样多,最多会从0增加到S,所以时间复杂度是O(S)。
  
  j便是原着中的L,j+z(j)-1便是原着中的R。


字串匹配

  制做P + $ + T,也就是说,P接到T开头,中间用一个从未出现过的字元隔开。然后算z function,看看哪些z(i)刚好是P的长度,即是匹配。
  
  实作时,不必真的衔接T与P。先计算P的z function,再以此计算T的z function就可以了。时间复杂度为O(T+P)。

这里写图片描述
  
  Gusfield’s Algorithm点明了字串匹配的精髓:两个字串的「共同前缀」。Morris-Pratt Algorithm则是Gusfield’s Algorithm的另外一面,两者关系互补。

Gusfield’s Algorithm :一个字串的每个后缀之中,与字串开头相同的最长前缀。
Morris-Pratt Algorithm:一个字串的每个前缀之中,与字串开头相同的次长后缀。

HDU4333 UVa 11022 ICPC 4759 CF 127D CF 113B CF 535D CF 432D CF 427D

原文出处:http://codeforces.com/blog/entry/3107