WAV格式总结

来源：互联网发布：淘宝怎么申请原图保护编辑：程序博客网时间：2024/05/22 13:34

收集了网上的一些关于WAV格式的资料，做个简单的总结，用于个人学习。

参考资料：

1 http://blog.csdn.net/bluesoal/archive/2006/07/17/932395.aspx

　　WAV格式是微软公司开发的一种声音文件格式，也叫波形声音文件，是最早的数字音频格式，被Windows平台及其应用程序广泛支持。WAV格式支持许多压缩算法，支持多种音频位数、采样频率和声道，采用44.1kHz的采样频率，16位量化位数，因此WAV的音质与CD相差无几，但WAV格式对存储空间需求太大不便于交流和传播.

　　WAV来源于对声音模拟波形的采样。用不同的采样频率对声音的模拟波形进行采样可以得到一系列离散的采样点，以不同的量化位数（8位或16位）把这些采样点的值转换成二进制数，然后存入磁盘，这就产生了声音的WAV文件，即波形文件。Microsoft Sound System软件Sound Finder可以转换AIF SND和VOD文件到WAV格式。

　　该格式记录声音的波形，故只要采样率高、采样字节长、机器速度快，利用该格式记录的声音文件能够和原声基本一致，质量非常高，但这样做的代价就是文件太大。

一、综述

　　WAVE文件作为多媒体中使用的声波文件格式之一，它是以RIFF格式为标准的。

　　RIFF是英文Resource Interchange File Format的缩写，每个WAVE文件的头四个字节便是“RIFF”。

　　WAVE文件是由若干个Chunk组成的。按照在文件中的出现位置包括：RIFF WAVE Chunk, Format Chunk, Fact Chunk(可选), Data Chunk。具体见下图：

　　------------------------------------------------

　　| RIFF WAVE Chunk |

　　| ID = 'RIFF' |

　　| RiffType = 'WAVE' |

　　------------------------------------------------

　　| Format Chunk |

| ID = 'fmt ' |

| Data Field |

　　------------------------------------------------

　　| Fact Chunk(optional) |

| ID = 'fact' |

| Data Field |

　　------------------------------------------------

　　| Data Chunk |

| ID = 'data' |

| Data Field |

　　------------------------------------------------

　　图1 Wav格式包含Chunk示例

　　其中除了Fact Chunk外，其他三个Chunk是必须的。每个Chunk有各自的ID，位于Chunk最开始位置，作为标示，而且均为4个字节。并且紧跟在ID后面的是Chunk大小（去除ID和Size所占的字节数后剩下的其他字节数目），4个字节表示，低字节表示数值低位，高字节表示数值高位。下面具体介绍各个Chunk内容。

PS：

　　所有数值表示均为低字节表示低位，高字节表示高位。

二、每个Chunk的具体介绍

　　RIFF WAVE Chunk

　　==================================

　　| |所占字节数|具体内容 |

　　==================================

　　| ID | 4 Bytes | 'RIFF' |

　　----------------------------------

　　| Size | 4 Bytes | |

　　----------------------------------

　　| Type | 4 Bytes | 'WAVE' |

　　----------------------------------

　　图2 RIFF WAVE Chunk

　　以'RIFF'作为标示，然后紧跟着为size字段，该size是整个wav文件大小减去ID和Size所占用的字节数，即FileLen - 8 = Size。然后是Type字段，为'WAVE'，表示是wav文件。RIFF WAVE Chunk的大小为12bytes。

　　结构定义如下：

　　struct RIFF_HEADER

　　{

　　char szRiffID[4]; // 'R','I','F','F'

　　DWORD dwRiffSize;

　　char szRiffFormat[4]; // 'W','A','V','E'

};

　　Format Chunk

　　============================================================

　　| |字节数 |具体内容 |

　　============================================================

　　| ID | 4 Bytes | 'fmt ' |

　　--------------------------------------------------------------------

　　| Size | 4 Bytes |数值为16或18，18则最后又附加信息 |

　　-------------------------------------------------------------------- ----

　　-------------------------------------------------------------------- |

　　-------------------------------------------------------------------- |

　　-------------------------------------------------------------------- |

　　-------------------------------------------------------------------- |

　　-------------------------------------------------------------------- |

　　-------------------------------------------------------------------- |

　　-------------------------------------------------------------------- ----

图3 Format Chunk

　　以'fmt '作为标示。一般情况下Size为16，此时最后附加信息没有；如果为18

　　则最后多了2个字节的附加信息。主要由一些软件制成的wav格式中含有该2个字节的附加信息,什么附加信息？内容为什么？

　　结构定义如下：

　　struct WAVE_FORMAT

　　{

　　WORD wFormatTag;

　　WORD wChannels;

　　DWORD dwSamplesPerSec;

　　DWORD dwAvgBytesPerSec;

　　WORD wBlockAlign;

　　WORD wBitsPerSample;

　　};

　　struct FMT_BLOCK

　　{

　　char szFmtID[4]; // 'f','m','t',' '

　　DWORD dwFmtSize;

　　WAVE_FORMAT wavFormat;

};

　　Fact Chunk

　　==================================

　　| |所占字节数|具体内容 |

　　==================================

　　| ID | 4 Bytes | 'fact' |

　　----------------------------------

　　| Size | 4 Bytes |数值为4 |

　　----------------------------------

　　| data | 4 Bytes | |

　　----------------------------------

　　图4 Fact Chunk

　　Fact Chunk是可选字段，一般当wav文件由某些软件转化而成，则包含该Chunk。一般不包含Fact Chunk。

　　结构定义如下：

　　struct FACT_BLOCK

　　{

　　char szFactID[4]; // 'f','a','c','t'

　　DWORD dwFactSize;

　　};

　　Data Chunk

　　==================================

　　| |所占字节数|具体内容 |

　　==================================

　　| ID | 4 Bytes | 'data' |

　　----------------------------------

　　| Size | 4 Bytes | |

　　----------------------------------

　　| data | | |

　　----------------------------------

　　图5 Data Chunk

　　Data Chunk是真正保存wav数据的地方，以'data'作为该Chunk的标示。然后是数据的大小。紧接着就是wav数据。根据Format Chunk中的声道数以及采样bit数， wav数据的bit位置可以分成以下几种形式：

　　---------------------------------------------------------------------

　Data Chunk是真正保存wav数据的地方，以'data'作为该Chunk的标示。然后是

数据的大小。紧接着就是wav数据。根据Format Chunk中的声道数以及采样bit数，

wav数据的bit位置可以分成以下几种形式：

----------------------------------------------------------------------------------------------------

| 单声道 | 取样1 | 取样2 | 取样3 | 取样4 |

| |-----------------------------------------------------------------------------------

| 8bit量化 | 声道0 | 声道0 | 声道0 | 声道0 |

----------------------------------------------------------------------------------------------------

| 双声道 | 取样1 | 取样2 |

| |----------------------------------------------------------------------------------

| 8bit量化 | 声道0(左) | 声道1(右) | 声道0(左) | 声道1(右) |

----------------------------------------------------------------------------------------------------

| | 取样1 | 取样2 |

| 单声道 |----------------------------------------------------------------------------------

| 16bit量化 | 声道0 | 声道0 | 声道0 | 声道0 |

------------------------------------------------------------------------------------------------------

| | 取样1 |

| 双声道 |------------------------------------------------------------------------------------

| 16bit量化 | 声道0(左) | 声道0(左) | 声道1(右) | 声道1(右) |

--------------------------------------------------------------------------------------------------------

图6 wav数据bit位置安排方式

　　Data Chunk头结构定义如下：

　　struct DATA_BLOCK

　　{

　　char szDataID[4]; // 'd','a','t','a'

　　DWORD dwDataSize;

};

三用表格的形式来描述WAVE HEADER

Wave Header总大小一般为44个Bytes，如果用一个结构体来定义WAVE文件头应该为：
struct WAVEFILEHEADER
{
char chRIFF[4];
DWORD dwRIFFLen;
char chWAVE[4];
char chFMT[4];
DWORD dwFMTLen;
PCMWAVEFORMAT pwf;
char chDATA[4];
DWORD dwDATALen;
};

这样在进行Wav文件播放时，拿出header信息后，就可以直接跳过44个bytes，再来播放PCM数据。播放PCM数据时，要注意数据的排列顺序，根据采样精度、通道数来正确读取数据。下表为文件头的描述。

偏移地址

字节数

数据类型

内容

00H

char

"RIFF"标志

04H

long int

文件长度

08H

char

"WAVE"标志

0CH

char

"fmt"标志

10H

过渡字节（不定）

14H

int

格式类别（10H为PCM形式的声音数据)

16H

int

通道数，单声道为1，双声道为2

18H

int

采样率（每秒样本数），表示每个通道的播放速度，

1CH

long int

波形音频数据传送速率，其值为通道数×每秒数据位数×每样本的数据位数／8。播放软件利用此值可以估计缓冲区的大小。

20H

int

数据块的调整数（按字节算的），其值为通道数×每样本的数据位值／8。播放软件需要一次处理多个该值大小的字节数据，以便将其值用于缓冲区的调整。

22H

每样本的数据位数，表示每个声道中各个样本的数据位数。如果有多个声道，对每个声道而言，样本大小都一样。

24H

char

数据标记符＂data＂

28H

long int

语音数据的长度

　　PCM数据的存放方式：

样本1

样本2

8位单声道

0声道

8位立体声

0声道（左）

1声道（右）

0声道（左）

1声道（右）

16位单声道

0声道低字节

0声道高字节

0声道低字节

0声道高字节

16位立体声

0声道（左）低字节

0声道（左）高字节

1声道（右）低字节

1声道（右）高字节

WAVE文件的每个样本值包含在一个整数i中，i的长度为容纳指定样本长度所需的最小字节数。首先存储低有效字节，表示样本幅度的位放在i的高有效位上，剩下的位置为0，这样8位和16位的PCM波形样本的数据格式如下所示。　8位采样一定是无符号。

样本大小

数据格式

最大值

最小值

8位PCM

unsigned int

225

16位PCM

int

32767

-32767

0 0