现代语音信号处理（胡航版）第1-6章内容简介

来源：互联网发布：seo 外链编辑：程序博客网时间：2024/06/07 05:41

根据《现代语音信号处理》（胡航版）总大概列出前六章的内容，有些会有一些自己的理解和总结.

第一章绪论

发展史和主要研究内容及发展。

第二章语音信号处理的基础知识：

1.主要讲了语音信号处理的基础知识

2. 语音的产生过程

1）语音信号的特性：音质、音调、音强、音长

2）汉语的特点（21个声母、39个韵母）

3）语音信号的统计特性

3.语音产生的线性模型

4.语音产生的非线性模型

1）FM-AM模型

2）Teager能量算子

3）能量分离算法

4）FM-AM模型应用

5.语音感知

1）听觉系统（内耳、中耳、外耳；人可感知的频率范围：20-20KHZ，强度范围：-5-130dB）

2）神经系统

3）语音感知（人类能够感知语音的四要素：响度、音调、音色、听觉掩蔽效应）

第三章时域分析

语音信号非平稳、事变、离散性大，且其中蕴含着说话内容以及说话人特征等，处理难度大。

时域分析具有简单、运算量小、物理意义明确等优点。

1.数字化和预处理

1）取样率和量化字长选择

2）预处理（数字化、放大及增益控制、反混叠滤波、预加重）

2.短时能量分析（En表示为语音信号一个短时间段内的能量，短时平均能量能反映语音能量随时间变化的特性，用于区分清/浊音等）

3. 短时过零分析（短时平均过零数能用于度量信号的频率，粗略地描述了信号频谱特性，可用于区别清/浊音；高频率意味高平均过零数，低频率意味着低平均过零数）

4. 短时相关分析

1）分为互相关函数、自相关函数；主要是自相关，用于研究信号本省，如波形同步性和周期性

2）短时自相关函数

3）修正短时自相关函数（解决基音周期宽，是窗和预期的基音周期相适应）

4）短时平均复查函数（避免乘法，简化运算，与自相关函数有类似的作用）

5.语音端点检测（用于有/无声或是浊/清/无声判定）

1）双门限前端检测（存在较大时延）

2）多门限过零率前端检测（解决方法1的缺陷）

3）基于FM-AM模型的端点检测（利用算子输出能量进行端点检测，相比常规的基于短时能量的端点检测方法有较好的效果）

6.基于高阶累积量的语音端点检测

1）噪声环境下的端点检测（目前提出的方法只适用于不同适用环境）

2）高阶累积量和高阶谱

3）基于高阶累积量的端点检测（广泛应用于非高斯及非循环平稳信号中；核心：任何类型的高斯信号，其三阶以上的高阶累积量均为0 ）

第四章短时傅里叶变换

1.短时傅里叶变换（短时傅里叶变换是窗选语音信号的傅里叶变换，Xn(e^jw) ）

2.短时傅里叶变换的取样率（针对避免混叠；三种取样率：时间取样率、频域取样率、综合取样率）

3.语音信号的短时综合（用于由Xn(e^jw)恢复x(n)的问题；两种方法，滤波器组求和法与FFT求和法存在对偶性）

1）滤波器组求和法（与频率取样有关；性能较好，因为其对噪声敏感性较小）

2）FFT求和法（与时间取样有关）

4.语谱图（显示大量与语句特性相关的信息，综合了频谱图与时域波形的优点，直观显示语音频谱随时间变化的情况，是一种动态的频谱）

第五章倒谱分析和同态滤波

1. 同态信号处理（可实现将卷积关系变成求和关系的分离处理，以达到解卷的效果；用于非加性组合信号，其中有包括乘性和卷积性组合信号）

2. 同态信号处理的基本原理

分三步：

1）特征系统（将卷积信号转化为加性信号；一分三步：Z变换，对数运算，逆Z变换）

2）线型系统

3）逆特征系统（将加性信号转化为卷积信号；一分三步：Z变换，指数运算，逆Z变换）

3. 复倒谱和倒谱

1）复倒谱（输入信号进行特征系统后得到的时域信号，成为输入信号的复倒谱，对应倒谱域）

2）倒谱（相对于复倒谱来说，取对数阶段，只取幅度的对数，除去相位的信息；倒谱运算相对简单，由于不含相位信息，不能恢复原始性）

4. 语音信号两个卷积分量复倒谱的性质

1）声门激励信号（较重要的性质：可用高复倒谱窗在复倒谱域中提取浊音激励信号的特性）

2）声道冲激响应序列（较重要的性质：可用低复倒谱窗在复倒谱域中提取声道冲激响应）

5. 避免相位卷绕的算法

1）相位卷绕：复倒谱取对数是进行的是复对数运算，此时存在相位多只问题，称其为相位卷绕。

2）避免的方法（微分法(不适用，会产生频谱混叠)，最小相位信号法，递推法(x(0)不能过小)）

6. 语音信号复倒谱分析实例

7. Mel频率倒谱系数（MFCC；应用于语音识别和说话人识别）

1）Mel频率滤波器组（基于人耳在1KHZ以下为频率的线性尺度，1KHZ以上为对数尺度，是人二对低频信号比高频信号更敏感的特点）

2）MFCC（重要特点：对频率轴不均匀的划分；该参数常用于语音识别中，可进行端点检测）

3）计算过程：（1）对信号分帧，预加重，hamming窗处理，STFT 得到频谱（2）使信号的线性幅度谱通过L个通道的Mel滤波器组并对输出累加（3）对滤波器输出取对数，在进行DCT（离散余弦变换），得到MFCC

第六章线性预测分析

LPC的基本思想：一个语音的取样可用过去若干语音取样的线性组合来逼近。通过使实际语音取样与LPC取样间差值的平方和，即进行LMS（最小均方误差）逼近，可决定唯一的一组预测系数，而它们就是线性组合中的加权系数。

1.线性预测的基本原理（基于AR模型，用一个模型表示被分析信号）

2.线性预测方程的建立（因为信号模型的建立是有信号估计模型参数的过程，信号是客观存在由一个有限数目参数的模型进行表示的，不可能完全准确，总会存在误差，因而求解LPC系数是一个逼近的过程，采用逆滤波器法来逼近）

3.线性预测分析的解法（1）——经典解法

1）自相关法（这种解法在整个时间范围内使误差最小；加窗处理；高效求解、精度低、会引入误差，能保证解的稳定性，适合硬件实现）

2）协方差法（这种解法可使信号N个样本上的误差最小；不加窗处理；精度高、不能保证解的稳定性，适用于平稳信号，存在对中间量比例运算的困难）

4.线性预测分析的解法（2）——格型法（解决自相关与协方差法的精度与稳定性存在矛盾的问题）

求解方法：

1）正向格型法（逼近原则：正向均方差；不能保证解的稳定性）

2）反向格型法（逼近原则：正向均方差；不能保证解的稳定性）

3）几何平均法（非逼近法；通过正向格型法Ki与反向格型法Ki 的几何平均求解；能保证解的稳定性）

4）Burg法（非逼近法；通过正向和反向均方误差纸盒的最小求解；能保证解的稳定性）

5）协方差格型法（非逼近法；针对原格型法减小其运算量，改写B\C\E的表达式改进格型法求解；保持格型法的灵活性、解的稳定性和精度，运算量与自相关法相近）

5.线性预测应用——LPC谱估计和LPC倒谱

1）谱估计

2）LPC复倒谱

3）LPC估计与其他谱分析方法的比较

6.线谱对（LSP）分析（频域参数；既有良好的量化和插值特性；以AR模型为基础）

7.极零点模型（为了获取更精确的解且节省运算量；存在解法困难，难以保证收敛于最佳值，且难以确定模型阶数）

第七章语音信号的非线性分析

小波变换

0 0