一种大文件的排序方法
来源:互联网 发布:java 运行lua 编辑:程序博客网 时间:2024/05/22 13:16
要求:一个文件中存有若干单词,每行一个,要求将文件中的单词按字典序排序。
分析:由于一个文件的大小可能超过内存大小,因此想要一次将整个文件全部读入内存后再进行排序是不现实的。当然,处理此问题可以采用归并法:把大文件拆分成多个可以一次读入内存的小文件,再对小文件进行排序后再归并。不过在此介绍另一种方法:以“磁盘空间”换内存空间,在文件内部进行冒泡排序。
算法思路:读取文件中的第1、2两个单词,若第1个比第2个大,则交换两个单词在文件中的位置,将单词直接写回文件。再读出第3个单词,并比较第2、3个单词的大小,依次类推。这样第1轮排序后最大的一个单词就到了文件的末尾,n-1轮后整个文件就排序完成了。实现代码如下:
void SortFile(FILE* fp, unsigned int wordNum, unsigned int maxWordLen){ long curWordPos, nextWordPos; char * curWord = (char*)malloc(maxWordLen+2); char * nextWord = (char*)malloc(maxWordLen+2); int err; assert(curWord != NULL && nextWord != NULL); for(unsigned int i = 0; i < wordNum-1; i++) { curWordPos=0; err = fseek(fp, curWordPos,SEEK_SET); assert(!err); fgets(curWord, maxWordLen, fp); for(unsigned int j = i; j < wordNum-1; j++) { nextWordPos = curWordPos+strlen(curWord); err = fseek(fp, nextWordPos,SEEK_SET); assert(!err); fgets(nextWord, maxWordLen, fp); if(StringCompare(curWord, nextWord) > 0) { err = fseek(fp, curWordPos,SEEK_SET); assert(!err); curWordPos += strlen(nextWord); fputs(nextWord,fp); fputs(curWord,fp); } else { curWordPos += strlen(curWord); strcpy(curWord, nextWord); } } } free(curWord); free(nextWord);}
在使用此函数前,应该能方便的获取到文件中单词的个数(wordNum)以及文件中最长的单词的长度(maxWordLen)。在文件中某个具体位置进行读写操作需要用到fseek函数。此外,打开文件时需要以读写方式打开(fopen时参数为使用"r+")。打开文件前需要设置文件读写模式为二进制方式(调用_set_fmode(_O_BINARY))避免C函数库将”/r/n”进行合并。
既然是以“磁盘空间”换内存空间,那么效率会不会降低?答案是不会!了解文件系统的操作原理就会明白,在进行文件读写时,fputs实际上是将文件内容写到了系统内存空间,仍然是在内存中进行操作。因此将此方法称作以系统内存空间换用户内存空间应该更加准确!而且此方法在用户内存空间只用到了两个单词大小的内存,相反效率比归并算法还会更高!
- 一种大文件的排序方法
- 一种快速加载大文件的方法
- 快速排序的一种方法
- 递归排序的一种实现方法。
- XML节点排序的一种方法
- 中文通讯录排序的一种实现方法
- 快速排序的一种实现方法
- python实现的一种排序方法
- 通过CMWAP下载大文件一种实现方法
- 实现文件拖放的一种简洁方法
- 文件拖放的一种简洁方法
- 实现文件拖放的一种简洁方法
- ring3层一种占用文件的方法
- 实现文件拖放的一种简洁方法
- 文件自销毁的一种方法
- 一种php文件加密方法的破解
- 实现文件拖放的一种简洁方法
- java复制文件的一种方法
- Outlook Note
- responsive web design plugin collection
- win32,win64编程的区别
- 杭电 ACM 1.3.6
- 深拷贝,浅拷贝
- 一种大文件的排序方法
- perl glob 过滤文件列表
- C/C++中的日期和时间 time_t与struct tm变换
- POJ 2155 二维线段树(压位水过)
- SuspendLayout 和 ResumeLayout
- 详解C程序开发中 .c和.h文件的区别
- 栈和堆的区别
- MySql数据库 汉字 ? 乱码解决 详细步骤 问题已解决
- VC动态轨迹画线