算法导论15.4-6 最长递增子序列(nlogn)

来源：互联网发布：mads mikkelsen 知乎编辑：程序博客网时间：2024/05/13 12:17

设序列X(n)，最长递增子序列长度为m，考虑长度为i的递增子序列，这种序列有多个，最小的末尾元素记为L(i)，可以得到 L(1) <= L(2) <= ... <= L(m)，这个证明较简单，使用反证法即可。在这个递增的序列中使用十分法查找，则可以实现O(nlogn)的算法。

从左到右扫描序列X(n)，L(1) 初始为x(1)，再引入一个当前最大长度K，初始为1，K表示目前扫描过的序列包含的最长递增子序列的长度，此时L(1)...L(K)有意义。读入一个数据x，如果L(i)是大于x中最小的，则x也是一个递增子序列的末尾元素，按照L(i)的定义，则L(i) = x，如此可以将数据x替换L(i)，以下是函数实现：

#define NO_STRICTLYstatic inline int find_pos(int *B, int len, int value){    int left = 0, right = len - 1, middle = 0;    while (left <= right) {        middle = (left + right)>>1;        if (B[middle] < value)            left = middle + 1;#ifdef NO_STRICTLY        else if (B[middle] == value)            left = middle + 1;#endif        else            right = middle - 1;    }        return left;}

用构造法证明，由于L(i)是大于x中最小的，则x>=L(i-1)，按照L(i-1)的定义，将x添加到L(i-1)的i-1 长度的递增子序列的末尾，就构造了一个长度为i的递增子序列。

形象的来讲，每读入一个数，就尝试将此数放置到一个递增序列的末尾，构造出一个更长的递增序列。

详细步骤参考如下的例子：

序列 2 1 3 0 4 1 5 2 7

开始

读入1

读入3

读入0

读入4

读入1

读入5

读入2

读入7

以上过程有如下几个特征

1. L的值只会越变越小，这是最自然的，因为L(i)就是长度为i的递增子序列中的最小末尾元素

2. 读入一个数据x，会覆盖某个L，这个L是>=x中最小的，如果x大于所有L，则新生成一个L。读入每个数据，L都是一个递增序列

3. 由于L是递增序列，插入数据时可以使用二分法进行，所以每个输入字符时间复杂度为O(logn)，整体时间复杂度为O(nlogn)

4. L的长度即为序列X(n)的最长递增子序列的长度

5. 从最左下角的L开始，按照“往上、往左”方向就会输出最长递增子序列的内容。优先往上，如果上方数据和当前数据相同，如果上方数据不同则转向左，上图最后输出的递增子序列为“1 3 4 5 7”

代码如下：

static int lis_nlogn_old(int *p, int len, int *inc_seq){    int i = 0;    int *L = NULL;    int **seq = NULL;    int pos = 0, curr_len = 0;    seq = malloc(len * sizeof(int *));    seq[0] = malloc(len * sizeof(int) * len);    for (i = 1;i < len;i++) {        seq[i] = seq[0] + len * i;    }        L = malloc((len + 1) * sizeof(int));    L[0] = p[0];    curr_len = 1;    seq[0][0] = p[0];    for (i = 1;i < len;i++) {        pos = find_pos(L, curr_len, p[i]);        L[pos] = p[i];        if (pos > 0) {            memcpy(seq[pos], seq[pos - 1], pos * sizeof(int));            seq[pos][pos] = p[i];        }        else {            seq[0][0] = p[i];        }        if (pos + 1 > curr_len)            curr_len++;    }    free(L); free(seq[0]);free(seq);    memcpy(inc_seq, seq[curr_len - 1], curr_len * sizeof(int));    return curr_len;}

很遗憾，虽然上述算法可以在O(nlogn)的时间内得到最长子序列的长度，但无法得到整个子序列，原因是每读入一个新数据，就需要将前一个数据保存的L值复制过来，考虑这部分的时间，就会发现整体复杂度为O(n*n)

注意整个子序列不能通过L数组来获得，因为某个L[i]会在后续被修改过了，为获取整个子序列，需要保存每个元素的前驱元素，即当前元素所属于的递增子序列的前一个元素，注意到每个元素的前驱元素一旦确定，就不会改变，所以可以根据这个前驱关系确定最长子序列。下面是更新后的代码

static int lis_nlogn(int *p, int len, int *inc_seq){    int i = 0, pos = 0, curr_len = 0;    int *L = NULL, *prev = NULL, *M = NULL;    L = malloc(len * sizeof(int));    M = malloc(len * sizeof(int));        prev = malloc(len * sizeof(int));    L[0] = p[0];    M[0] = 0;    prev[0] = -1;               /* the prev of the p[0] is NULL */     curr_len = 1;    /* Caculate prev and M */    for (i = 1;i < len;i++) {        pos = find_pos(L, curr_len, p[i]);        L[pos] = p[i];        M[pos] = i;        if (pos > 0)            prev[i] = M[pos - 1];        else            prev[i] = -1;        if (pos + 1 > curr_len)            curr_len++;    }    /* Output increasing sequence */    pos = M[curr_len - 1];    for (i = curr_len - 1;i >= 0 && pos != -1;i--) {        inc_seq[i] = p[pos];        pos = prev[pos];    }    return curr_len;}