外排序(大数据文件排序)
来源:互联网 发布:mac免费翻墙教程 编辑:程序博客网 时间:2024/05/24 05:01
内排序方法的共同特点是在排序的过程中所有数据都在内存中。但是当待排序的记录数目特别多时,在内存中不能一次处理。必须把他们以文件的形式存放于外存,排序时再把他们一部分一部分地调入内存进行处理。这样,在排序过程中必须不断地在内存与外存之间传送数据。这种基于外部储存设备(或文件)的排序技术就是外排序。
操作系统读写磁盘所需的时间远远超过内存运算时间,基于磁盘(文件)进行的排序多使用归并排序方法。排序分为两个阶段:
- 第一阶段建立为外排序所用的内存缓冲区。根据他们的大小将输入文件划分为若干段,用某种有效的内排序方法(例如本博客中用快速排序),对各段进行排序。这些排序后的排序段,写到外存中。
- 利用二路归并思想,把第一阶段生成的初始段加以归并,一趟趟地扩大归并段和减少归并段的个数,直到最后归并成一个大归并段(有序文件)为止。
利用简单的两路归并函数merge对两个归并段进行归并时,仅需把这两个归并段中的记录逐块读入内存,所以这种方法能够对很大的归并段进行排序。
void merge(int numberOfSegments, int segmentSize,char* f1, char* f2, char* f3){ if (numberOfSegments > 1) { mergeOneStep(numberOfSegments, segmentSize, f1, f2, f3); merge((numberOfSegments + 1) / 2, segmentSize * 2, f3, f1, f2); } else { // rename f1 as the final sorted file copyFile(f1, "sortedlargedata.dat"); cout << "\nSorted into the file sortedlargedata.dat" << endl; }}其中mergeOneStep函数,以及copyFile函数如下:
void mergeOneStep(int numberOfSegments, int segmentSize, char* f1,char* f2, char* f3){ fstream f1Input; f1Input.open(f1, ios::in | ios::binary); fstream f2Output; f2Output.open(f2, ios::out | ios::binary); // Copy half number of segments from f1.dat to f2.dat copyHalfToF2(numberOfSegments, segmentSize, f1Input, f2Output); f2Output.close(); // Merge remaining segments in f1 with segments in f2 into f3 fstream f2Input; f2Input.open(f2, ios::in | ios::binary); fstream f3Output; f3Output.open(f3, ios::out | ios::binary); mergeSegments(numberOfSegments / 2, segmentSize, f1Input, f2Input, f3Output); f1Input.close(); f2Input.close(); f3Output.close();}
void copyHalfToF2(int numberOfSegments, int segmentSize, fstream &f1, fstream &f2){ for (int i = 0; i < (numberOfSegments / 2) * segmentSize; i++) { int value; f1.read(reinterpret_cast<char *> (& value), sizeof(value)); f2.write(reinterpret_cast<char *> (& value), sizeof(value)); }}
void mergeSegments(int numberOfSegments, int segmentSize, fstream &f1,fstream &f2, fstream &f3){ for (int i = 0; i < numberOfSegments; i++) { mergeTwoSegments(segmentSize, f1, f2, f3); } // f1 may have one extra segment, copy it to f3 while (!f1.eof()) { int value; f1.read(reinterpret_cast<char *> (& value), sizeof(value)); if (f1.eof()) break; f3.write(reinterpret_cast<char *> (& value), sizeof(value)); }}
void mergeTwoSegments(int segmentSize, fstream &f1, fstream &f2,fstream &f3){ int intFromF1; f1.read(reinterpret_cast<char *> (& intFromF1), sizeof(intFromF1)); int intFromF2; f2.read(reinterpret_cast<char *> (& intFromF2), sizeof(intFromF2)); int f1Count = 1; int f2Count = 1; while (true) { if (intFromF1 < intFromF2) { f3.write(reinterpret_cast<char *>(&intFromF1), sizeof(intFromF1)); if (f1.eof() || f1Count++ >= segmentSize) { if (f1.eof()) break; f3.write(reinterpret_cast<char *>(&intFromF2), sizeof(intFromF2)); break; } else { f1.read(reinterpret_cast<char *> (& intFromF1), sizeof(intFromF1)); } } else { f3.write(reinterpret_cast<char *>(&intFromF2), sizeof(intFromF2)); if (f2.eof() || f2Count++ >= segmentSize) { if (f2.eof()) break; f3.write(reinterpret_cast<char *>(&intFromF1), sizeof(intFromF1)); break; } else { f2.read(reinterpret_cast<char *> (& intFromF2), sizeof(intFromF2)); } } } while (!f1.eof() && f1Count++ < segmentSize) { int value; f1.read(reinterpret_cast<char *> (& value), sizeof(value)); if (f1.eof()) break; f3.write(reinterpret_cast<char *> (& value), sizeof(value)); } while (!f2.eof() && f2Count++ < segmentSize) { int value; f2.read(reinterpret_cast<char *> (& value), sizeof(value)); if (f2.eof()) break; f3.write(reinterpret_cast<char *> (& value), sizeof(value)); }}
void copyFile(char * f1, char * target){ fstream input; input.open(f1, ios::in | ios::binary); fstream output; output.open(target, ios::out | ios::binary); int i = 0; while (!input.eof()) // Continue if not end of file { int value; input.read(reinterpret_cast<char *> (& value), sizeof(value)); if (input.eof()) break; output.write(reinterpret_cast<char *> (& value), sizeof(value)); } input.close(); output.close();}第一阶段代码(其中mergeOneStep函数也属于第一阶段):
int initializeSegments(int segmentSize, char* originalFile, char* f1){ int *list = new int[segmentSize]; fstream input; input.open(originalFile, ios::in | ios::binary); fstream output; output.open(f1, ios::out | ios::binary); int numberOfSegments = 0; while (!input.eof()) { int i = 0; for ( ; !input.eof() && i < segmentSize; i++) { input.read(reinterpret_cast<char *> (& list[i]), sizeof(list[i])); } if (input.eof()) i--; if (i <= 0) break; else numberOfSegments++; // Sort an array list[0..i-1] quickSort(list, i); // Write the array to f1.dat for (int j = 0; j < i; j++) { output.write(reinterpret_cast<char *> (& list[j]), sizeof(list[j])); } } input.close(); output.close(); delete [] list; return numberOfSegments;}主函数:
int main(){ const int MAX_ARRAY_SIZE = 100; // Implement Phase 1: Create initial segments int numberOfSegments = initializeSegments(MAX_ARRAY_SIZE, "largedata.dat", "f1.dat"); // Implement Phase 2: Merge segments recursively merge(numberOfSegments, MAX_ARRAY_SIZE, "f1.dat", "f2.dat", "f3.dat"); fstream input; int value; input.open("sortedlargedata.dat",ios::in|ios::binary);for(int i=0;i<100;i++){input.read(reinterpret_cast<char *>(&value),sizeof(value));cout<<value<<" ";}input.close();return 0;}以及快速排序QuickSort.h:
void quickSort(int list[],int arraySize);void quickSort(int list[],int first,int last);int partition(int list[],int first,int last);void quickSort(int list[],int arraySize){quickSort(list,0,arraySize-1);}void quickSort(int list[],int first,int last){if(last>first){int pivotIndex=partition(list,first,last);quickSort(list,first,pivotIndex-1);quickSort(list,pivotIndex+1,last);}}int partition(int list[],int first,int last){int pivot=list[first];int low=first+1;int high=last;while(high>low){while(low<=high&&list[low]<=pivot)low++;while(low<=high&&list[high]>pivot)high--;if(high>low){int temp=list[high];list[high]=list[low];list[low]=temp;}}while(high>first&&list[high]>=pivot)high--;if(pivot>list[high]){list[first]=list[high];list[high]=pivot;return high;}else{return first;}}
可以在http://wenku.baidu.com/view/a6bfc3859ec3d5bbfd0a74f8下载完整代码
3 0
- 外排序(大数据文件排序)
- 大数据排序方案---外排序介绍
- 多路归并 外排序 大文件排序 海量数据处理
- 外排序和归并排序
- 内排序和外排序
- 内排序与外排序
- 归并排序实现外排序
- 内排序和外排序
- 多路归并排序 外排序 大文件排序 java实现
- 排序算法及其效率分析(二)外排序
- 使用groovy进行大文件外排序
- 内排序与外排序的关系
- 合并排序:数组和单链表,外排序
- 内排序和外排序的理解
- 外排序
- 外排序
- 外排序
- 外排序
- 关于iOS在向服务器上传数据时
- ROWNUMBER() OVER( PARTITION BY COL1 ORDER BY COL2)用法
- 图书api 查询图书内容
- cocos2d-x大型地图的实现
- vim 自动补全插件 for nodejs
- 外排序(大数据文件排序)
- js数组删除元素
- java 拦截器、过滤器、监听器
- MYSQL 优化
- awk 初学02
- CSS美化上传按钮并获取上传文件路径
- autolayout
- Objective-C Runtime
- 华为oj inoc产品部--完全数计算