第十五章 字符串(二)
来源:互联网 发布:马哥linux视频教程 编辑:程序博客网 时间:2024/06/02 11:22
第十五章的第二部分涉及到“短语”,其书中提出的一个问题是:给定一个文本文件作为输入,查找其中最长的重复子字符串。例如,"Ask not what your country can do for you, but what you can do for your country"中最长的重复字符串是“can do for you”,第二长的是"your country"。如何解决这个问题呢?
文中利用两种方法来解决这个问题,第一种方法进行全文的扫描,其时间复杂度为O(n^2),这种方法将字符串作为一个整体(包括空格符)存储在一个字符数组char c[]中,因此利用的输入函数为C中的getchar(),算法比较字符串中的每个子串,并利用全局变量存储最长长度和始末数组下标。
// Program to recognize the longest duplicated string in the text// 简易方法,时间复杂度O(n^2) #include <stdio.h>#include <stdlib.h>#define MAX 5000000char buf[MAX];int comlen(char *p, char *q){ int count=0; /* if(*p != *q) return count; if(*p && *p == *q) { ++count; p++; q++; } */ while(*p++ == *q++) ++count; return count;}int main(){ int i, j, n=0, maxlen=0, maxi, maxj, thislen; char c; //while(scanf("%s", buf) != EOF) // ; // IN order to calculate the length n, we use getchar() instead of scanf() while((c=getchar()) != EOF) buf[n++]=c; //buf[n]='\0'; for(i=0;i<n;i++) { for(j=i+1;j<n;j++) // j=i+1 { //if((len=comlen(i,j))>maxlen) if((thislen=comlen(&buf[i], &buf[j]))>maxlen) // pay attention to the (a=b)>c expression { maxlen=thislen; maxi=i; maxj=j; } } } printf("The longest length is:%d\n",maxlen); printf("The longest string is: "); for(i=maxi;i<maxi+maxlen;i++) // i< putchar(buf[i]); return 0;}
需要注意的问题是怎样将comlen()函数中的字符指针和字符数组的下标值联系起来,其实就是用取地址符嘛!--&。
文中的第二种方法用到了一个新颖的数据结构---后缀数组。其实在本例中就是一个字符指针数组,元素a[0]指向整个字符串,下一个元素指向从第二个字符开始的数组后缀,等等。其数组的大小为字符串的大小。而算法的思想是这样的:利用额外的空间来换取时间,首先读入输入的字符串,构建后缀数组。然后利用C库函数中的qsort()对后缀数组排序,这样排序后相邻的数据就是有最多重复字符的数据。最后比较排序后数组中的每个相邻的数据,找出最长的一个重复子串。在下面的程序中更灵活地加入了一个宏变量M,其代表的意义是这个重复子串出现的次数,也就是将解法扩展为解决“打印重复M次的最长子串”,这个问题只要在比较数组中数据时比较a[i]和a[i+M]即可。本例中对于n个字符的输入文本,后缀数组使用文本自身和额外的n个指针来表示每个子串,时间复杂度为O(nlogn)。
// Program to recognize the longest duplicated string in the text (打印最长重复子串)// 后缀数组,时间复杂度 O(nlogn)// Print longest string duplicated M times (打印重复M次的最长子串) #include <stdio.h>#include <stdlib.h> #include <string.h>#define M 1 //#define MAX 5000000char buf[MAX];char *a[MAX]; //后缀数组 int comlen(char *p, char *q){ int count=0; while(*p && (*p++ == *q++)) ++count; return count;}int pstrcmp(char **p, char **q) //{ return strcmp(*p, *q);}int main(){ int i, n=0, maxlen=0, thislen, j; char c; while((c=getchar()) != EOF) { /* buf[n]=c; a[n]=&buf[n]; n++; */ a[n]=&buf[n]; buf[n++]=c; } buf[n]='\0'; //qsort(a, n, sizeof(char *), strcmp); // qsort(a, n, sizeof(char *), pstrcmp); // 指向指针的指针 /* for(i=0;i<n;i++) printf("%s\n",a[i]); */ //for(i=0;i<(n-1);i++) // i<n-1 不要越界 for(i=0;i<(n-M);i++) { //if((thislen=comlen(a[i], a[i+1]))>maxlen) if((thislen=comlen(a[i], a[i+M]))>maxlen) { maxlen=thislen; j=i; } } printf("The longest length is:%d\n", maxlen); //printf("The longest duplicated string is:%s",a[j]); //*精度输出字符串中的maxlen个字符 printf("The longest duplicated string is:%.*s\n",maxlen, a[j]); return 0;}需要注意的问题:1,qsort()函数中的各个参数代表的含义,其中自己重新构建的比较函数pstrcmp实际上是对strcmp库函数的一层间接调用,但是因为数组是字符指针数组,而对函数的调用需要利用到指针,所以pstrcmp()中的参数是二级指针,这在调用strcmp时需要一级的解引用*,而每个元素的大小(即函数的第三个参数为char型指针的大小)。2.在for()循环比较数组元素时需要注意下标越界的问题。3.打印输出的时候printf()函数利用“*”来精度控制字符串,指定打印字符串的长度,涉及到printf()的格式。
程序运行截图:
- 第十五章 字符串(二)
- 【编程珠玑】第十五章 字符串(二)
- 第十五章 字符串(一)
- 第十五章 字符串(三)
- 第十五章 字符串
- 第十五章字符串
- 第十五章之(二)嵌套类
- 第十五周项目二字符串分段
- 【编程珠玑】第十五章 字符串
- 【编程珠玑】第十五章 字符串
- 第十五周任务(二)
- 第十五周任务(二)
- 第十五章(二) FIFO、消息队列及信号量
- 孙鑫MFC深入详解 第十五章 多线程(二)
- 第十五章 字符串 简答题2~5
- 第十五周OJ (9)字符串比较
- 第十五周-字符串替换(串)
- 第十五周-字符串的修改(串)
- 高斯告诉我们
- eclipse .java文件中按alt+/没有提示信息
- 准备写点文章--关于软件测试/软件质量的
- 练习笔记00
- PB 各种小技巧(三)
- 第十五章 字符串(二)
- 【干货分享】IOS非越狱渠道运营必知的10条
- 策略模式-商场促销-大话设计模式
- PB 各种小技巧(四)
- QT Socket编程--TCP Server
- 对某单位oracle10g数据库巡检后,提交的优化建议
- 百度之星之G:聊天就是Repeat
- ASP.NET注册时使用邮箱激活验证
- PB 各种小技巧(五)