利用huffman编码实现压缩文件

来源:互联网 发布:阿里云服务器进入 编辑:程序博客网 时间:2024/05/17 23:39

 哈夫曼是一种常用的压缩方法。是1952年为文本文件建立的,其基本原理是频繁使用的数据用较短的代码代替,很少使用的数据用较长的代码代替,每个数据的代码各不相同。这些代码都是二进制码,且码的长度是可变的。如: 有一个原始数据序列,ABACCDAA则编码为A(0),B(10),C(110),(D111),压缩后为010011011011100。

  产生霍夫曼编码需要对原始数据扫描两遍,第一遍扫描要精确地统计出原始数据中的每个值出现的频率,第二遍是建立霍夫曼树并进行编码,由于需要建立二叉树并遍历二叉树生成编码,因此数据压缩和还原速度都较慢,但简单有效,因而得到广泛的应用。  哈夫曼算法在改变任何符号二进制编码引起少量密集表现方面是最佳的。然而,它并不处理符号的顺序和重复或序号的序列。

  哈夫曼压缩,首先用ASCII值初始化511个哈夫曼节点,然后,计算在输入缓冲区数据中,每个ASCII码出现的频率。然后,根据频率进行排序,现在,构造哈夫曼树,获取每个ASCII码对应的位序列,构造哈夫曼树,将所有的节点放到一个队列中,用一个节点替换两个频率最低的节点,新节点的频率就是这两个节点的频率之和。这样,新节点就是两个被替换节点的父节点了。如此循环,直到队列中只剩一个节点(树根)。压缩的最后一步是将每个ASCII编码写入输出缓冲区中  哈夫曼解压缩,将输入缓冲区中的每个编码用对应的ASCII码逐个替换就可以了。只要记住,这里的输入缓冲区是一个包含每个ASCII值的编码的位流。因此,为了用ASCII值替换编码,我们必须用位流搜索哈夫曼树,直到发现一个叶节点,然后将它的ASCII值添加到输出缓冲区中。

[cpp] view plaincopy
  1. /*****************************************************************/  
  2. /*****************************************************************/  
  3. /**程序:  compress.c                                            **/  
  4. /**功能:  压缩与解压缩单个文件                                  **/  
  5. /**详情:  利用霍夫曼算法生成输入文件的霍夫曼编码,并转换成二进制**/  
  6. /**       字节流输出从而达到压缩的效果;解压缩则是从压缩文件中读**/  
  7. /**       入霍夫曼树信息,从而还原为原编码,达到解压缩的目的。  **/  
  8. /**                     压缩文件结构                            **/  
  9. /**         偏移量             存储信息类型                     **/  
  10. /**         0~3                 文件头标志                      **/  
  11. /**         4                   源文件名长度:n_s                **/  
  12. /**         5~4+n_s             文件名                          **/  
  13. /**         5+n_s~8+n_s         源文件长度                      **/  
  14. /**         9+n_s~1028+n_s      huffman树非叶子节点孩子信息     **/  
  15. /**         1029+n_s~FILE_END   源文件的huffman二级制编码信息   **/  
  16. /**环境:  AM2_4000+ & Windows_Server_2008 & VC++_2008           **/  
  17. /**其他:  davelv @ 2008-12-18                                   **/  
  18. /*****************************************************************/  
  19. /*****************************************************************/  
  20. ////////////////////////////////////////////////////////////////////  
  21. ////                头文件、自定义类型、预定义宏常量            ////  
  22. ////////////////////////////////////////////////////////////////////  
  23. #define _CRT_SECURE_NO_DEPRECATE//VC2005或更新的编译器不显示I/O安全警告  
  24. #include <stdio.h>  
  25. #include <string.h>  
  26. #include <stdlib.h>  
  27. typedef unsigned int UINT;  
  28. typedef unsigned char UCHAR;  
  29. typedef unsigned short USHORT;  
  30. typedef struct node  
  31. {  
  32.     long    w;//权  
  33.     short   p,l,r;//父亲,左孩子,右孩子  
  34. }htnode,*htnp;//霍夫曼树的结点  
  35. typedef struct huffman_code  
  36. {  
  37.     UCHAR len;//长度  
  38.     UCHAR  *codestr;//字符串  
  39. }hufcode;//字符版本的霍夫曼编码  
  40. #define OK       1  
  41. #define ERROR   -1  
  42. #define UNUSE   -1  
  43. #define ARGS_ERR    -2//参数错误  
  44. #define FILE_ERR    -3//文件错误  
  45. #define HEAD_ERR    -4//头标错误  
  46. #define MALLOC_ERR  -5//内存分配错误  
  47. #define HUFTREE_ERR -6//霍夫曼树错误  
  48. #define HUFCODE_ERR -7//霍夫曼编码错误  
  49. #define CHAR_BITS   8//一个字符中的位数  
  50. #define INT_BITS    32//一个整型中的位数  
  51. #define CODE_SIZE   256//霍夫曼编码个数  
  52. #define CACHE_SIZE  256//I/O缓存大小  
  53. #define UINT_SIZE   sizeof(UINT)  
  54. #define UCHAR_SIZE  sizeof(UCHAR)  
  55. #define USHORT_SIZE sizeof(USHORT)  
  56. #define ZIP_HEAD    0xFFFFFFFF//压缩文件头标  
  57. #define MAX_NAME_LEN    512   
  58. ////////////////////////////////////////////////////////////////////  
  59. ////                        函数声明                            ////  
  60. ////////////////////////////////////////////////////////////////////  
  61. //压缩相关函数  
  62. UCHAR   chars_to_bits(const UCHAR chars[CHAR_BITS]);//将一个字符数组转换成二进制数字@ write_compress_file()  
  63. int     search_set(htnp ht,int n);//查找当前最小权值的霍夫曼树节点并置为占用@create_huffmantree()  
  64. int     create_huffmantree(long w[],int n,htnode ht[]);//生成霍夫曼树@compress()  
  65. int     encode_huffmantree(htnp htp,int n,hufcode hc[]);//生成霍夫曼编码@compress()  
  66. long    calc_data_frequency(FILE *in,long frequency[]);//计算每个不同字节的频率以及所有的字节数@compress()  
  67. int     compress(char *source_filename,char *obj_filename);//处理压缩文件的流程@process_args()  
  68. int     c_initial_files(char *source_filename,FILE **inp,char *obj_filename,FILE **outp);//为处理压缩流程初始化文件@compress()  
  69. int     write_compress_file(FILE *in,FILE *out,htnp ht,hufcode hc[],char* source_filename,long source_filesize);//写压缩文件@compress()  
  70. //解压缩相关函数  
  71. void    get_mini_huffmantree(FILE* in,short mini_ht[][2]);//从待解压缩文件中得到一个小型的huffman树@decompress()  
  72. int     decompress(char *source_filename,char *obj_filename);//处理解压缩文件的流程@process_args()  
  73. int     d_initial_files(char *source_filename,FILE **inp,char *obj_filename,FILE **outp);//为处理解压缩流程初始化文件@decompress()  
  74. int     write_decompress_file(FILE *in,FILE* out,short mini_ht[][2],long bits_pos,long obj_filesize);//写解压缩文件@decompress()  
  75. //辅助函数  
  76. void    print_help();//在屏幕上显示帮助@process_args(),main()  
  77. void    process_error(int error_code);//处理函数中返回的错误代码@process_args(),main()  
  78. void    process_args(char *first,char*second,char*third);//处理命令行参数@main()  
  79. char    *create_default_obj_filename(char *source_filename,char* obj_filename);//生成一个默认的文件名@c_initial_files()  
  80. ////////////////////////////////////////////////////////////////////  
  81. ////                    压缩相关函数                            ////  
  82. ////////////////////////////////////////////////////////////////////  
  83. /****************************************************************/  
  84. /*函数:   c_initial_files()                                     */  
  85. /*功能:   初始化并打开压缩功能所需所有文件                      */  
  86. /*参数:   char    *source_filename    源文件名字符串            */  
  87. /*        FILE    **inp               指向输入文件指针的指针    */  
  88. /*        char    *obj_filename       目标文件名字字符串        */  
  89. /*        FILE    **outp              指向输出文件指针的指针    */  
  90. /*返回:   int     OK                  函数成功运行              */  
  91. /*                其他                出错                      */  
  92. /****************************************************************/  
  93. int c_initial_files(char *source_filename,FILE **inp,char *obj_filename,FILE **outp)  
  94. {  
  95.     char  temp_filename[MAX_NAME_LEN];  
  96.     if(source_filename==NULL)  
  97.     {  
  98.         return FILE_ERR;//空名字返回错误  
  99.     }  
  100.     //当目标文件名没分配时  
  101.     if(obj_filename==NULL)  
  102.     {  
  103.         obj_filename = temp_filename;  
  104.         create_default_obj_filename(source_filename,obj_filename);//生成默认名字  
  105.     }  
  106.     if(strcmp(source_filename,obj_filename)==0)  
  107.     {  
  108.         return FILE_ERR;//重名返回错误  
  109.     }  
  110.     printf("待压缩文件:%s,压缩文件:%s\n",source_filename,obj_filename);  
  111.       
  112.     if((*outp=fopen(obj_filename,"wb"))==NULL)  
  113.     {  
  114.         return FILE_ERR;//不能读,返回错误  
  115.     }  
  116.     if((*inp=fopen(source_filename,"rb"))==NULL)  
  117.     {  
  118.         return FILE_ERR;//不能写,返回错误  
  119.     }  
  120.       
  121.     return OK;  
  122. }  
  123. /****************************************************************/  
  124. /*函数:   calc_data_frequency()                                 */  
  125. /*功能:   计算输入文件中不同字节的出现的次数以及所有的字节数    */  
  126. /*参数:   FILE    *in         输入文件指针                      */  
  127. /*        long    frequency[] 保存不同字节出现次数的数组        */  
  128. /*返回:   long    filesize    输入文件总长度                     */  
  129. /****************************************************************/  
  130. long calc_data_frequency(FILE *in,long frequency[])  
  131. {  
  132.     int     i,read_len;  
  133.     UCHAR   buf[CACHE_SIZE];//I/O缓存数组  
  134.     long    filesize;//总长  
  135.       
  136.     for(i=0;i<CODE_SIZE;i++)  
  137.     {  
  138.         frequency[i]=0;//初始化频率为0  
  139.     }  
  140.     fseek(in,0L,SEEK_SET);  
  141.     read_len=CACHE_SIZE;    //设置读入长度  
  142.     while(read_len==CACHE_SIZE)  
  143.     {  
  144.         read_len=fread(buf,1,CACHE_SIZE,in);  
  145.         for(i=0;i<read_len;i++)  
  146.         {  
  147.             frequency[*(buf+i)]++;//计算每个字符出现次数  
  148.         }  
  149.     }  
  150.     for(i=0,filesize=0;i<CODE_SIZE;i++)  
  151.     {  
  152.         filesize+=frequency[i];//计算全部字节数  
  153.     }  
  154.     return filesize;  
  155. }  
  156. /****************************************************************/  
  157. /*函数:   search_set()                                          */  
  158. /*功能:   查找当前最小权值的霍夫曼树节点并置为占用              */  
  159. /*参数:   htnp    ht          huffman树的指针                   */  
  160. /*        int     n           查找范围                          */  
  161. /*返回:   int     x           最小权值节点的下标                */  
  162. /****************************************************************/  
  163. int search_set(htnp ht,int n)  
  164. {  
  165.     int i,x;  
  166.     for(x=0;x<n;x++)  
  167.     {  
  168.         if(ht[x].p==UNUSE)  break;//找到第一个叶子节点,跳出  
  169.     }  
  170.     for(i=x;i<n;i++)  
  171.     {  
  172.         if(ht[i].p==UNUSE&&ht[i].w<ht[x].w)  
  173.         {  
  174.             x=i;//找权值最小的叶子节点  
  175.         }  
  176.     }  
  177.     ht[x].p=-2;//将叶子节点占用  
  178.     return x;  
  179. }  
  180. /****************************************************************/  
  181. /*函数:   create_huffmantree()                                  */  
  182. /*功能:   通过给定的数据权值生成霍夫曼树                        */  
  183. /*参数:   long    w[]             数据的权值                    */  
  184. /*        int     n               数据的个数                    */  
  185. /*        htnp    ht              huffman树的指针               */  
  186. /*返回:   int     OK              函数成功运行                  */  
  187. /*                其他            出错                          */  
  188. /****************************************************************/  
  189. int create_huffmantree(long w[],int n,htnode ht[])  
  190. {  
  191.     int m,i,s1,s2;  
  192.     if (n<1)    return HUFTREE_ERR;  
  193.     m=2*n-1;//霍夫曼树节点总数=叶子数*2-1  
  194.     if (ht==NULL)   return HUFTREE_ERR;  
  195.     for(i=0;i<n;i++)  
  196.     {  
  197.         ht[i].w=w[i],ht[i].p=ht[i].l=ht[i].r=UNUSE;//初始化叶子节点  
  198.     }   
  199.     for(;i<m;i++)  
  200.     {  
  201.         ht[i].w=ht[i].p=ht[i].l=ht[i].r=UNUSE;//初始化非叶子节点  
  202.     }  
  203.     for(i=n;i<m;i++)//建立huffman树  
  204.     {  
  205.         s1=search_set(ht,i);  
  206.         s2=search_set(ht,i);//找到权值最小的两个节点  
  207.         ht[s1].p=ht[s2].p=i;//设置父节点  
  208.         ht[i].l=s1,ht[i].r=s2;//设置孩子  
  209.         ht[i].w=ht[s1].w+ht[s2].w;//设置权  
  210.     }  
  211.     return OK;  
  212. }  
  213. /****************************************************************/  
  214. /*函数:   encode_huffmantree()                                  */  
  215. /*功能:   通过给定的霍夫曼树生成霍夫曼编码                      */  
  216. /*参数:   htnp        htp             huffman树的指针           */  
  217. /*        int         n               数据的个数                */  
  218. /*        huffcode    hc[]            霍夫曼编码存储数组        */  
  219. /*返回:   int         OK              函数成功运行              */  
  220. /*                    其他            出错                      */  
  221. /****************************************************************/  
  222. int encode_huffmantree(htnp htp,int n,hufcode hc[])  
  223. {  
  224.     int i,j,p,codelen;//codelen:临时字符数组长度  
  225.     UCHAR *code=(UCHAR*)malloc(n*UCHAR_SIZE);//临时字符数组  
  226.       
  227.     if (code==NULL) return MALLOC_ERR;  
  228.     for(i=0;i<n;i++)//遍历所有叶子节点  
  229.     {  
  230.         //从当前节点到根节点逆向求huffman编码  
  231.         for(p=i,codelen=0;p!=2*n-2;p=htp[p].p,codelen++)  
  232.         {  
  233.             code[codelen]=(htp[htp[p].p].l==p?0:1);//左孩子:0;右孩子:1  
  234.         }         
  235.         if((hc[i].codestr=(UCHAR *)malloc((codelen)*UCHAR_SIZE))==NULL)  
  236.         {  
  237.             return MALLOC_ERR;//分配叶子节点huffman编码的空间  
  238.         }  
  239.         hc[i].len=codelen;//码长  
  240.         for(j=0;j<codelen;j++)  
  241.         {  
  242.             hc[i].codestr[j]=code[codelen-j-1];//转换为正向huffman编码  
  243.         }  
  244.     }  
  245.     free(code);//清理临时字符数组  
  246.     return OK;  
  247. }  
  248. /****************************************************************/  
  249. /*函数:   chars_to_bits()                                       */  
  250. /*功能:   将一组(8)个字符转换为二进制数                         */  
  251. /*参数:   const UCHAR chars[]     待转换的字符数组              */  
  252. /*返回:   UCHAR       bits        转换后的二进制数              */  
  253. /****************************************************************/  
  254. UCHAR chars_to_bits(const UCHAR chars[CHAR_BITS])  
  255. {  
  256.     int i;  
  257.     UCHAR bits=0;  
  258.       
  259.     bits|=chars[0];  
  260.     for(i=1;i<CHAR_BITS;++i)//将8个字符转换成8个二进制位  
  261.     {  
  262.         bits<<=1;  
  263.         bits|=chars[i];       
  264.     }  
  265.     return bits;  
  266. }  
  267. /****************************************************************/  
  268. /*函数:   write_compress_file()                                 */  
  269. /*功能:   转换源文件为二进制huffman编码并其他信息输出到目标文件 */  
  270. /*参数:   FILE    *in                 输入文件的指针            */  
  271. /*        FILE    *out                输出文件的指针            */  
  272. /*        htnp    ht                  霍夫曼树的指针            */  
  273. /*        hufcode hc[]                霍夫曼编码数组            */  
  274. /*        char    *source_filename    源文件名字符串            */  
  275. /*        long    source_filesize     源文件长度                */  
  276. /*返回:   int     OK                  函数成功运行              */  
  277. /*                其他                出错                      */  
  278. /****************************************************************/  
  279. int write_compress_file(FILE *in,FILE *out,htnp ht,hufcode hc[],char* source_filename,long source_filesize)  
  280. {  
  281.     UINT    i,read_counter,write_counter,zip_head=ZIP_HEAD;//读缓存计数器,写缓存计数器,压缩文件头标  
  282.     UCHAR   write_char_counter,code_char_counter,copy_char_counter,//写字符计数器,huffman码字符计数器,复制字符计数器  
  283.             read_buf[CACHE_SIZE],write_buf[CACHE_SIZE],write_chars[CHAR_BITS],filename_size=strlen(source_filename);//读缓存,写缓存,转换字符数组,文件名长度  
  284.     hufcode *cur_hufcode;//当前数据的huffman编码指针  
  285.     //定位读写文件到文件开始处  
  286.     fseek(in,0L,SEEK_SET);  
  287.     fseek(out,0L,SEEK_SET);  
  288.     //写文件头  
  289.     fwrite(&zip_head,UINT_SIZE,1,out);//写入文件头标志  
  290.     //写源文件名  
  291.     fwrite(&filename_size,UCHAR_SIZE,1,out);//写入源文件名长度  
  292.     fwrite(source_filename,sizeof(char),filename_size,out);//写入源文件名  
  293.     //写入源文件长度  
  294.     fwrite(&source_filesize,sizeof(long),1,out);  
  295.     //写huffman树的左右孩子(前CODE_SIZE个节点无孩子,不写)  
  296.     for(i=CODE_SIZE;i<CODE_SIZE*2-1;i++)  
  297.     {  
  298.         fwrite(&(ht[i].l),sizeof(ht[i].l),1,out);//写入左孩子  
  299.         fwrite(&(ht[i].r),sizeof(ht[i].r),1,out);//写入右孩子  
  300.     }  
  301.     //写编码后信息  
  302.     write_counter=write_char_counter=0;//写缓冲计数器以及写字符计数器清0  
  303.     read_counter=CACHE_SIZE;//置读缓存字符数  
  304.     //当读入的缓存字符数不等于缓存时,文件读完,退出循环  
  305.     while(read_counter==CACHE_SIZE)  
  306.     {  
  307.         read_counter=fread(read_buf,1,CACHE_SIZE,in);//读入数据到读缓存  
  308.         //为每个缓存的数据找huffman编码  
  309.         for(i=0;i<read_counter;i++)  
  310.         {  
  311.             cur_hufcode=&hc[read_buf[i]];//当前数据的huffman编码位置  
  312.             code_char_counter=0;//当前数据huffman编码字符的计数器清0  
  313.             //当huffman编码字符的计数器等于码长时,转换完毕退出  
  314.             while(code_char_counter!=cur_hufcode->len)  
  315.             {   //获取本次复制字符的长度为 可用写字符长度与可用huffman编码长度中的较小者  
  316.                 copy_char_counter=  (CHAR_BITS-write_char_counter > cur_hufcode->len-code_char_counter ?   
  317.                                     cur_hufcode->len-code_char_counter : CHAR_BITS-write_char_counter);  
  318.                 //复制一段字符  
  319.                 memcpy(write_chars+write_char_counter,cur_hufcode->codestr+code_char_counter,copy_char_counter);  
  320.                 write_char_counter+=copy_char_counter;//写字符计数器增加  
  321.                 code_char_counter+=copy_char_counter;//编码字符计数器增加  
  322.                 //当写字符计算器满=8时  
  323.                 if(write_char_counter==CHAR_BITS)  
  324.                 {  
  325.                     write_char_counter=0;//写字符计数器清0  
  326.                     //当写缓存满时  
  327.                     write_buf[write_counter++]=chars_to_bits(write_chars);//转化写字符为二进制数并存入写缓存  
  328.                     if(write_counter==CACHE_SIZE)  
  329.                     {  
  330.                         fwrite(write_buf,1,CACHE_SIZE,out);//输出到文件  
  331.                         write_counter=0;//写缓存清0  
  332.                     }  
  333.                 }  
  334.             }  
  335.         }  
  336.           
  337.     }  
  338.     fwrite(write_buf,1,write_counter,out);//写缓存中剩余数据输出到文件  
  339.     //当写字符数组中还有字符未转换  
  340.     if(write_char_counter!=0)  
  341.     {  
  342.         write_char_counter=chars_to_bits(write_chars);//转化为二级制数据  
  343.         fwrite(&write_char_counter,1,1,out);//输出到文件  
  344.     }  
  345.     return OK;  
  346. }  
  347. /****************************************************************/  
  348. /*函数:   compress()                                            */  
  349. /*功能:   处理压缩文件的流程                                    */  
  350. /*参数:   char    *source_filename    源文件名字符串            */  
  351. /*        char    *obj_filename       目标文件名字字符串        */  
  352. /*返回:   int     OK                  函数成功运行              */  
  353. /*                其他                出错                      */  
  354. /****************************************************************/  
  355. int compress(char *source_filename,char *obj_filename)  
  356. {  
  357.     FILE *in,*out;  
  358.     int error_code,i;  
  359.     float compress_rate;  
  360.     hufcode hc[CODE_SIZE];  
  361.     htnode  ht[CODE_SIZE*2-1];  
  362.     long frequency[CODE_SIZE ],source_filesize,obj_filesize=0;  
  363.     //处理待压缩与压缩文件文件  
  364.     error_code=c_initial_files(source_filename,&in,obj_filename,&out);  
  365.     if(error_code!=OK)  
  366.     {  
  367.         return error_code;  
  368.     }  
  369.     puts("文件打开成功,开始读取文件信息...");  
  370.     //处理各个字符的频率  
  371.     source_filesize=calc_data_frequency(in,frequency);    
  372.     puts("文件读入完成,开始分析文件信息...");  
  373.     printf("文件大小 %ld 字节\n",source_filesize);  
  374.     //生成huffmantree  
  375.     error_code=create_huffmantree(frequency,CODE_SIZE,ht);  
  376.     if(error_code!=OK)  
  377.     {  
  378.         return error_code;  
  379.     }  
  380.     puts("霍夫曼树建立成功,开始霍夫曼编码...");  
  381.     //生成huffmancode  
  382.     error_code=encode_huffmantree(ht,CODE_SIZE,hc);  
  383.     if(error_code!=OK)  
  384.     {  
  385.         return error_code;  
  386.     }  
  387.     //处理压缩文件长度  
  388.     for(i=0;i<CODE_SIZE;i++)  
  389.         obj_filesize+=frequency[i]*hc[i].len;//计算位的个数  
  390.     obj_filesize=obj_filesize%8==0?obj_filesize/8:obj_filesize/8+1;//转换为字节个数;  
  391.     for(i=0;i<CODE_SIZE-1;i++)  
  392.         obj_filesize+=2*sizeof(short);//huffmantree长度  
  393.     obj_filesize+=strlen(source_filename)+1;//源文件名长度  
  394.     obj_filesize+=sizeof(long);//源文件长度  
  395.     obj_filesize+=UINT_SIZE;//文件头长度  
  396.     compress_rate=(float)obj_filesize/source_filesize;  
  397.     puts("编码成功,开始生成压缩文件...");  
  398.     printf("压缩文件预期长度:%ld字节,压缩比例:%%%.2lf\n",obj_filesize,compress_rate*100);  
  399.     //生成压缩文件  
  400.     error_code=write_compress_file(in,out,ht,hc,source_filename,source_filesize);  
  401.     if(error_code!=OK)  
  402.     {  
  403.         return error_code;  
  404.     }  
  405.     puts("压缩完成!");  
  406.     //清理资源  
  407.     fclose(in);  
  408.     fclose(out);//关闭文件    
  409.     for(i=0;i<CODE_SIZE;i++)  
  410.     {  
  411.         free(hc[i].codestr);  
  412.     }  
  413.     return OK;  
  414. }  
  415. ////////////////////////////////////////////////////////////////////  
  416. ////                    解压缩相关函数函                        ////  
  417. ////////////////////////////////////////////////////////////////////  
  418. /****************************************************************/  
  419. /*函数:   d_initial_files()                                     */  
  420. /*功能:   初始化并打开压缩功能所需所有文件                      */  
  421. /*参数:   char    *source_filename    源(待解压缩)文件名字符串  */  
  422. /*        FILE    **inp               指向输入文件指针的指针    */  
  423. /*        char    *obj_filename       目标(解压缩)文件名字字符串*/  
  424. /*        FILE    **outp              指向输出文件指针的指针    */  
  425. /*返回:   int     OK                  函数成功运行              */  
  426. /*                其他                出错                      */  
  427. /****************************************************************/  
  428. int d_initial_files(char *source_filename,FILE **inp,char *obj_filename,FILE **outp)  
  429. {  
  430.     UINT    zip_head;  
  431.     UCHAR   filename_size;  
  432.     char  temp_filename[MAX_NAME_LEN];  
  433.     printf("待解压缩文件:%s,",source_filename);  
  434.     if ((*inp=fopen(source_filename,"rb"))==NULL)  
  435.     {  
  436.         return FILE_ERR;//不能读文件  
  437.     }  
  438.     //处理文件头  
  439.     fread(&zip_head,UINT_SIZE,1,*inp);  
  440.     if(zip_head!=ZIP_HEAD)  
  441.     {  
  442.         return HEAD_ERR;//非法的文件头  
  443.     }  
  444.     //处理解压缩文件名  
  445.     if(obj_filename==NULL)//如果目标文件名未分配  
  446.     {  
  447.     obj_filename = temp_filename;  
  448.         fread(&filename_size,UCHAR_SIZE,1,*inp);//得到目标文件名长度  
  449.         fread(obj_filename,sizeof(char),filename_size,*inp);//得到目标文件名  
  450.         obj_filename[filename_size]='\0';//添加结尾字符  
  451.     }  
  452.     else  
  453.     {  
  454.         fread(&filename_size,UCHAR_SIZE,1,*inp);  
  455.         fseek(*inp,filename_size,SEEK_CUR);//若分配了,直接跳过文件名信息  
  456.     }  
  457.     printf("解压缩文件:%s\n",obj_filename);  
  458.     if((*outp=fopen(obj_filename,"wb"))==NULL)  
  459.     {  
  460.         return FILE_ERR;//不能写文件  
  461.     }  
  462.     return OK;  
  463. }  
  464. /****************************************************************/  
  465. /*函数:   get_mini_huffmantree()                                */  
  466. /*功能:   从输入文件得到一个小型的huffman树                     */  
  467. /*参数:   FILE    *in             输入文件指针                  */  
  468. /*        short   mini_ht[][2]    存储小型huffman树的数组       */  
  469. /*返回:   无                                                    */  
  470. /****************************************************************/  
  471. void get_mini_huffmantree(FILE* in,short mini_ht[][2])  
  472. {  
  473.     int i;  
  474.     for(i=0;i<CODE_SIZE;i++)  
  475.     {  
  476.         mini_ht[i][0]=mini_ht[i][1]=UNUSE;//叶子节点无孩子  
  477.     }  
  478.     fread(mini_ht[i],sizeof(short),2*(CODE_SIZE-1),in);//得到非叶子节点的孩子信息  
  479. }  
  480. /****************************************************************/  
  481. /*函数:   write_decompress_file()                               */  
  482. /*功能:   转换压缩文件二进制huffman编码为源编码并输出到目标文件 */  
  483. /*参数:   FILE    *in                 输入文件的指针            */  
  484. /*        FILE    *out                输出文件的指针            */  
  485. /*        short   mini_ht[][2]        存储小心霍夫曼树数组      */  
  486. /*        long    bits_pos            输入文件压缩码处的偏移量  */  
  487. /*        long    source_filesize     源文件长度                */  
  488. /*返回:   int     OK                  函数成功运行              */  
  489. /*                其他                出错                      */  
  490. /****************************************************************/  
  491. int write_decompress_file(FILE *in,FILE* out,short mini_ht[][2],long bits_pos,long obj_filesize)  
  492. {  
  493.     long    cur_size;  
  494.     UCHAR   read_buf[CACHE_SIZE],write_buf[CACHE_SIZE],convert_bit;  
  495.     UINT    read_counter,write_counter,cur_pos;  
  496.       
  497.     fseek(in,bits_pos,SEEK_SET);//定位到写文件压缩码开始处  
  498.     fseek(out,0L,SEEK_SET);//定位到写文件头部  
  499.     //解码开始  
  500.     read_counter=CACHE_SIZE-1;//置写缓存计数器  
  501.     cur_size=write_counter=0;//当前写入文件长度与写缓存计数器为0  
  502.     cur_pos=CODE_SIZE*2-2;//当前huffman节点为根节点  
  503.     //如果写入文件长度达到目标文件长度,文件写入完毕,退出  
  504.     while(cur_size!=obj_filesize)  
  505.     {   //若读缓存计数器满  
  506.         if(++read_counter==CACHE_SIZE)  
  507.         {  
  508.             fread(read_buf,1,CACHE_SIZE,in);//读入到读缓存  
  509.             read_counter=0;//读缓存计数器清0  
  510.         }  
  511.         //一次循环处理8位,即1字节  
  512.         for(convert_bit=128;convert_bit!=0;convert_bit>>=1)  
  513.         {  
  514.             cur_pos=((read_buf[read_counter]&convert_bit)==0?mini_ht[cur_pos][0]:mini_ht[cur_pos][1]);//按位查找huffmantree节点,0左,1右  
  515.             if(cur_pos<CODE_SIZE)//如果当前节点位置小与编码数,则是叶子节点  
  516.             {  
  517.                 write_buf[write_counter]=(UCHAR)cur_pos;//缓存一个byte  
  518.                 if(++write_counter==CACHE_SIZE)//如果当前输出缓存满  
  519.                 {  
  520.                     fwrite(write_buf,1,CACHE_SIZE,out);//输出到文件  
  521.                     write_counter=0;//输入缓存计数器清0  
  522.                 }  
  523.                 cur_pos=CODE_SIZE*2-2;//当前节点重置为最后根节点  
  524.                 if(++cur_size==obj_filesize)  
  525.                 {  
  526.                     break;//如果当前写入文件长度到达预定值,跳出  
  527.                 }  
  528.             }  
  529.         }  
  530.     }  
  531.     fwrite(write_buf,1,write_counter,out);//将写缓存中未输出的数据输出  
  532.     return OK;  
  533. }  
  534. /****************************************************************/  
  535. /*函数:   decompress()                                          */  
  536. /*功能:   处理解压缩文件的流程                                  */  
  537. /*参数:   char    *source_filename    源文件名字符串            */  
  538. /*        char    *obj_filename       目标文件名字字符串        */  
  539. /*返回:   int     OK                  函数成功运行              */  
  540. /*                其他                出错                      */  
  541. /****************************************************************/  
  542. int decompress(char *source_filename,char *obj_filename)  
  543. {  
  544.     int     error_code;  
  545.     FILE    *in,*out;  
  546.     short   mini_ht[CODE_SIZE*2-1][2];  
  547.     long    obj_filesize;  
  548.     //处理待解压缩文件  
  549.     error_code=d_initial_files(source_filename,&in,obj_filename,&out);  
  550.     if(error_code!=OK)  
  551.     {  
  552.         return error_code;  
  553.     }  
  554.     puts("文件打开成功,开始读取文件信息...");  
  555.     //读取解压缩文件长度  
  556.     fread(&obj_filesize,sizeof(long),1,in);  
  557.     printf("解压文件预期长度:%ld\n",obj_filesize);  
  558.     puts("开始重建霍夫曼树...");  
  559.     //生成mini的huffmantree  
  560.     get_mini_huffmantree(in,mini_ht);  
  561.     puts("霍夫曼树建立成功,开始解压缩...");  
  562.     //解码压缩文件并生成解压缩文件  
  563.     error_code=write_decompress_file(in,out,mini_ht,ftell(in),obj_filesize);  
  564.     if(error_code!=OK)  
  565.     {  
  566.         return error_code;  
  567.     }  
  568.     puts("解压缩完成!");  
  569.     //清理资源  
  570.     fclose(in);  
  571.     fclose(out);  
  572.     return OK;  
  573. }  
  574. ////////////////////////////////////////////////////////////////////  
  575. ////                    辅助相关函数                            ////  
  576. ////////////////////////////////////////////////////////////////////  
  577. /****************************************************************/  
  578. /*函数:   create_default_obj_filename()                         */  
  579. /*功能:   根据源文件名生成一个默认的目标文件名                  */  
  580. /*参数:   char    *source_filename    源文件名字符串            */  
  581. /*        char    *obj_filename       目标文件名字字符串        */  
  582. /*返回:   char    *obj_filename       目标文件名字字符串        */  
  583. /****************************************************************/  
  584. char *create_default_obj_filename(char *source_filename,char* obj_filename)  
  585. {  
  586.     char *temp;  
  587.     //若当前文件名中不含有'.'(没有后缀名  
  588.     if((temp=strrchr(source_filename,'.'))==NULL)  
  589.     {  
  590.         strcpy(obj_filename,source_filename);//复制到目标文件名  
  591.         strcat(obj_filename,".cmp");//将".cmp"后缀名添加到目标文件名后  
  592.     }  
  593.     else  
  594.     {   //如果有后缀名  
  595.         strncpy(obj_filename,source_filename,temp-source_filename);//将源文件后缀名前的字符复制到目标文件名  
  596.         obj_filename[temp-source_filename]='\0';//加上字符串结尾字符  
  597.         strcat(obj_filename,".cmp");//将".cmp"后缀名添加到目标文件名后  
  598.     }  
  599.     return obj_filename;  
  600. }  
  601. /****************************************************************/  
  602. /*函数:   print_help()                                          */  
  603. /*功能:   在屏幕上显示帮助信息                                  */  
  604. /*参数:   无                                                    */  
  605. /*返回:   无                                                    */  
  606. /****************************************************************/  
  607. void print_help()  
  608. {  
  609.     puts("\n压缩或者解压缩单个文件\n");  
  610.     puts("compress [/h]");  
  611.     puts("compress [/c]|[/d] source_file [object_file]\n");  
  612.     puts("  /h\t\t显示当前的这些东西...");  
  613.     puts("  /c\t\t压缩文件");  
  614.     puts("  /d\t\t解压缩文件");  
  615.     puts("  source_file\t源文件(包括路径)");  
  616.     puts("  object_file\t目标文件(包括路径)");  
  617. }  
  618. /****************************************************************/  
  619. /*函数:   process_error()                                       */  
  620. /*功能:   处理从函数中返回的错误代码并在屏幕上显示对应信息      */  
  621. /*参数:   int     error_code          从函数中返回的错误代码    */  
  622. /*返回:   无                                                    */  
  623. /****************************************************************/  
  624. void process_error(int error_code)  
  625. {  
  626.     //#define ARGS_ERR      -2  
  627.     //#define FILE_ERR      -3  
  628.     //#define HEAD_ERR      -4  
  629.     //#define MALLOC_ERR    -5  
  630.     //#define HUFTREE_ERR   -6  
  631.     //#define HUFCODE_ERR   -7  
  632.     switch(error_code)  
  633.     {  
  634.         case ARGS_ERR:      puts("ERR:错误的参数!");break;  
  635.         case FILE_ERR:      puts("ERR:打开文件出错!");break;  
  636.         case HEAD_ERR:      puts("ERR:非法的压缩文件头!");break;  
  637.         case MALLOC_ERR:    puts("ERR:内存分配出错!");break;  
  638.         case HUFTREE_ERR:   puts("ERR:霍夫曼生成树出错!");break;  
  639.         case HUFCODE_ERR:   puts("ERR:霍夫曼编码出错!");break;  
  640.         default:            break;  
  641.     }  
  642. }  
  643. /****************************************************************/  
  644. /*函数:   process_args()                                        */  
  645. /*功能:   处理传给程序的命令行参数                              */  
  646. /*参数:   char    *first      第一个参数的字符串                */  
  647. /*        char    *second     第二个参数的字符串                */  
  648. /*        char    *third      第三个参数的字符串                */  
  649. /*返回:   无                                                    */  
  650. /****************************************************************/  
  651. void process_args(char *first,char*second,char*third)  
  652. {  
  653.     if (strcmp(first,"/h")==0||strcmp(first,"/?")==0)//第一参数first为-h,显示帮助  
  654.     {  
  655.         print_help();  
  656.     }  
  657.     else if(strcmp(first,"/c")==0)//第一参数first为-c,压缩  
  658.     {  
  659.         process_error(compress(second,third));//第二参数second为源文件名,第三参数third为目标文件名  
  660.     }  
  661.     else if(strcmp(first,"/d")==0)//第一参数first为-d,解压缩  
  662.     {  
  663.         process_error(decompress(second,third));//第二参数second为源文件名  
  664.     }  
  665.     else//其他,显示错误信息  
  666.     {  
  667.         process_error(ARGS_ERR);  
  668.     }  
  669. }  
  670. /****************************************************************/  
  671. /*函数:   main()                                                */  
  672. /*功能:   程序入口,处理参数的个数                              */  
  673. /*参数:   int     argc        传给程序参数的个数(包括程序名)    */  
  674. /*        char    *argv[]     传给程序参数的字符串数组          */  
  675. /*返回:   int     OK          函数成功运行                      */  
  676. /*                其他        出错                              */  
  677. /****************************************************************/  
  678. int main(int argc, char *argv[])  
  679. {  
  680.     switch(argc)  
  681.     {  
  682.         case    1:  print_help();break;//没有参数的时候显示帮助  
  683.         case    2:  process_args(argv[1],NULL,NULL);break;//仅带有-h参数的时候显示帮助  
  684.         case    3:  process_args(argv[1],argv[2],NULL);break;  
  685.         case    4:  process_args(argv[1],argv[2],argv[3]);break;  
  686.         default :   process_error(ARGS_ERR);//其他参数,显示错误信息  
  687.     }  
  688.     return OK;  
  689. }  
  690. //end  
0 0