后缀树

来源:互联网 发布:js format date 编辑:程序博客网 时间:2024/04/30 15:18

后缀树其实是Trie树的改进,一棵后缀树包含了一个或多个字符串的所有后缀。

对于字符串banana,如果要用trie树来表示它所有的后缀,如下图:


然后对所有的【只有单个子节点的节点】进行合并


然后就可得到后缀树



构造一棵后缀trie树的时间和空间复杂度都是o(n^2),而构造一棵后缀树,全部树节点数不会超过2n+1个(因为一棵完全二叉树的总节点数是2n+1,n为叶子节点的个数,而对于多叉树,节点数目会小于2n+1)。同时后缀树也存在o(n)的时间复杂度的构造方法。


后缀树的定义:

一个长度为n的字符串S,它的后缀树定义为一棵满足如下条件的树:

n  从根到树叶的路径与S的后缀一一对应。即每条路径惟一代表了S的一个后缀;

n  每条边都代表一个非空的字符串;

n  所有内部节点(根节点除外)都有至少两个子节点。

由于并非所有的字符串都存在这样的树,因此S通常使用一个终止符号进行填充(通常使用$)。


后缀树的存储改进:

可以不在每条边上存储字符串,而只存储该串在总串中的起止位置,如对于banana的一个子串nana,我们可以存储为(3,6)。

后缀树的线性时间构造方法:

这个好复杂……没弄懂,算了,以后有用到再看吧

后缀树的几个应用:

  • 在文本T里查询T是否包含子串P(复杂度同流行的KMP相当)。
  • 文本T里找出最长重复子串。比如abcdabcefda里abc同da都重复出现,而最长重复子串是abc。
    解法:首先定义节点的“字符深度”=从后缀树根节点到每个节点所经过的字符串总长。找出有最大字符深度的非叶节点,则从根节点到该非叶节点所经过的字符串即为所求。
  • 找出字符串S1同S2的最长公共子串。注意不是常用作动态规划例子的LCS。比如字符串acdfg同akdfc的最长公共子串为df,而他们的LCS是adf。
  • 查找字符串的最长回文子串。

原创粉丝点击