自己动手实现高压缩比压缩软件超详细解释（LZW算法）

来源：互联网发布：nginx upsync module 编辑：程序博客网时间：2024/05/08 10:12

Lzw 针对大量的子串多次重复出现的压缩

之前用了一个哈弗曼算法给大家实现了文件的压缩处理，其实上，文件压缩的原理很简单，无非就是把重复出现的元素，用一个特定的方式转化为跟少量的信息来存储。今天我所给大家分享的就是一个更为引用广泛的压缩算法lzw压缩算法。

一、lzw的介绍

LZW压缩算法是一种新颖的压缩方法，由Lemple-Ziv-Welch 三人共同创造，用他们的名字命名。它采用了一种先进的串表压缩，将每个第一次出现的串放在一个串表中，用一个数字来表示串，压缩文件只存贮数字，则不存贮串，从而使图象文件的压缩效率得到较大的提高。奇妙的是，不管是在压缩还是在解压缩的过程中都能正确的建立这个串表，压缩或解压缩完成后，这个串表又被丢弃。

简单的说明一下：

Ababcabab这个字符串，开起来9个字符组成的，但是会发现一点就是ab这个字符组合比较的多。如果我们用一个数字，也就是7来表示ab的话，则字符串就变为了77c77，这样一来字符串的字符个数就变为了5个，如果大家仔细些会发现，如果我们用一个数字8来表示abab，则原来的字符串就变为了8c8只有3个字符了，是不是很神奇哈。

从这个例子我们就可以看出LZW算法的适用范围是原始数据串最好是有大量的子串多次重复出现，重复的越多，压缩效果越好。反之则越差，可能真的不减反增了。

比如：

一个如此重复的文件：

大小为：

压缩后效果就非常的显著：

文件大小变为原来的1/30

具体思想：

比如我们大家所熟知的ASCII码，这个码表是与我们常见的字符是一一对应的，比如我们说‘a’,我们也可以写成97，这两者就是等价的。其实上这就是一个码表。所以人们就想到，我们可不可以用以一个码表示一个或者多个的字符，比如8表示ab这两字符，我们就能将abcab这种的字符串缩小为8c8了。但是我们知道字节只有0~255，如果我们要扩展的话就必须增加自己的定义。既，我假设我用增加了256~65534这么一段表示新的码表。

具体步骤：

①打开一个待压缩文件与存放压缩后的文件

②读入一个字节作为后缀，判断这个词字典中是否存在，存在则直接输出，不存在则加入字典中。

③如果超过了最大的长度则，将当前码表写出到文件中，清空，再次读入

④最后，将没有写完的信息，和码表都输出，压缩就完成了

举一个例子说明：

先说两个概念

前缀prefix：一个词组的前面一个字符，比如 ab,前缀为a，8f前缀为8

后最suffix：反之，为后一个字符，比如 ab,后缀为b，8f后缀为f

有了前缀后缀，我们就能清楚的表示出来一个词了。

同样，我们还来做一个字符串 ababbacb 8个字符

第几步

前缀

后缀

词

存在对应码

输出

码

(,a)

(a,b)

256

(b,a)

257

(a,b)

yes

256

(256,b)

256

258

(b,a)

yes

257

(257,c)

257

259

(c,b)

260

把输出来的和最后一个后缀连在一起则是：

a,b,256,257,c,b

6个字符，那么就达到了压缩的目的。

对应生成的码表则是：

256

257

258

259

260

（a,b）

(b,a)

(256,b)

(257,c)

(c,b)

解压缩就很简单了，将输出字符串按照码表对应转化回来就实现了。

即

a,b,256（ab）,257(ba),c,b

即 ababbacb

压缩成功。

当然我们不能一直无穷之境的增加码表的长度，再说内存也容不下这么长的码表。正如我之前所说的，我用了0~65534保存字节所对应的编码，0~255是系统字节的长度，256~65534是我自己定义的。如果超过了65534的话，我们这必须再次编码。即将原来所对应的编码输出，将256~65534这一段清空，再次编码就可以了。

为了记录我们是在哪里清空的，所有又在文件中写一个字符，表示 “清除”，我的程序中用的是65535表示。

详细代码设计

压缩过程

①打开一个待压缩文件与存放压缩后的文件

//打开被压缩文件java.io.FileInputStream fis = new java.io.FileInputStream(path);//压缩文件输出流java.io.FileOutputStream fos = new java.io.FileOutputStream(path+".stzip");java.io.DataOutputStream dos = new java.io.DataOutputStream(fos);

②读入一个字节作为后缀，判断这个词字典中是否存在，存在则直接输出，不存在则加入字典中。

prefix=fis.read();//读入一个字节while(fis.available()>0){suffix=fis.read();//读入一个后缀    index=lz.getIndex(prefix, suffix);//得到对应的下标if(index!=-1){//存在元素在表里面prefix=index;//前序变为标号}else{//在表里不存在//System.out.println("输出了~"+prefix);dos.writeChar(prefix);//输出前缀lz.add(prefix,suffix);//加入到表中prefix=suffix;//前缀变为后缀}}

③如果超过了最大的长度则，将当前码表写出到文件中，清空，再次读入

if(lz.length==lzw.Max_Length){//超过最大长度则，重置dos.writeChar(65535);//写出一个65535作为重置的标示 与码表的打印//写出码表//dos.writeInt(lz.length);//码表长度System.out.println("写出长度~"+lz.length);for(int i=256;i<lz.length;i++){dos.writeChar(lz.node[i].prefix);//前缀写出dos.writeChar(lz.node[i].suffix);//后缀写出}lz = new lzw();//清空原来信息}

④最后，将没有写完的信息，和码表都输出，压缩就完成了

dos.writeChar(prefix);//输出最后一个没有配对的//输出最后的的码表//System.out.println("写出标记~"+65535);dos.writeChar(65535);//写出一个-1作为重置的标示 与码表的打印//写出码表dos.writeInt(lz.length-256);//码表长度//System.out.println("写出长度~"+(lz.length-256));for(int i=256;i<lz.length;i++){//System.out.println("写出前后缀~"+lz.node[i].prefix+","+lz.node[i].suffix);dos.writeChar(lz.node[i].prefix);//前缀写出dos.writeChar(lz.node[i].suffix);//后缀写出}

解压缩过程:

①读入码表之前的压缩信息

char data;int current=0;char []codeData = new char[65536];lzw lz = new lzw();//自定义码表data=dis.readChar();//System.out.println("读取字符~"+data);while(data!=65535){//把码表钱的东西读取出来//System.out.println("开打文件中有的内容"+current+"是"+data);codeData[current]=data;current++;//当前位置增加data=dis.readChar();}

②读入对应长度的码表

int length = dis.readInt();//得到码表的长度//System.out.println("独到的长度"+length);for(int i=0;i<length;i++){//读入码表int prefix = dis.readChar();int suffix = dis.readChar();//System.out.println("第"+i+"个的数据"+prefix+","+suffix);lz.add(prefix, suffix);}

③翻译编码，写出源文件

//解压缩、写出该部分的源文件for(int i=0;i<current;i++){//System.out.println("传进来的数据是~"+codeData[i]);lz.writeIt(dos, codeData[i]);public void writeIt(java.io.DataOutputStream dos,int index){//System.out.println("进来的index是"+index);if(index>255){//是生成的码则需要转化为byte输出writeIt(dos,node[index].prefix);writeIt(dos,node[index].suffix);}else{try {//System.out.println("解压输出了~"+index);//char data=(char) index;dos.write((char)index);//dos.writeChar(data);} catch (IOException e) {e.printStackTrace();}}}

比较，lzw和哈弗曼做比较，lzw的代码更为简便，实现更为简单，效率也比哈弗曼高。但是LZW得算法比较难以理解。

lesson5.rar (4.6 KB)
下载次数: 334

查看图片附件

自己动手实现高压缩比压缩软件 超详细解释（LZW算法）

Lzw 针对大量的子串多次重复出现的压缩

自己动手实现高压缩比压缩软件超详细解释（LZW算法）