现代语音信号处理(胡航版)第1-6章内容简介

来源:互联网 发布:seo 外链 编辑:程序博客网 时间:2024/06/07 05:41
根据《现代语音信号处理》(胡航版)总大概列出前六章的内容,有些会有一些自己的理解和总结.
第一章 绪论
     发展史和主要研究内容及发展。

第二章 语音信号处理的基础知识:
    1.主要讲了语音信号处理的基础知识
    2. 语音的产生过程
 1) 语音信号的特性:音质、音调、音强、音长
 2)  汉语的特点(21个声母、39个韵母)
 3)  语音信号的统计特性
     3.语音产生的线性模型  
     4.语音产生的非线性模型  
          1)FM-AM模型
          2)Teager能量算子
          3)能量分离算法
          4)FM-AM模型应用
     5.语音感知
          1)听觉系统(内耳、中耳、外耳;人可感知的频率范围:20-20KHZ,强度范围:-5-130dB)
          2)神经系统
          3)语音感知(人类能够感知语音的四要素:响度、音调、音色、听觉掩蔽效应)

第三章 时域分析
     语音信号非平稳、事变、离散性大,且其中蕴含着说话内容以及说话人特征等,处理难度大。
     时域分析具有简单、运算量小、物理意义明确等优点。
     1.数字化和预处理
          1)取样率和量化字长选择
          2)预处理(数字化、放大及增益控制、反混叠滤波、预加重)
     2.短时能量分析(En表示为语音信号一个短时间段内的能量,短时平均能量能反映语音能量随时间变化的特性,用于区分清/浊音等)
     3. 短时过零分析(短时平均过零数能用于度量信号的频率,粗略地描述了信号频谱特性,可用于区别清/浊音 ;高频率意味高平均过零数,低频率意味着低平均过零数)
     4. 短时相关分析
          1)分为互相关函数、自相关函数;主要是自相关,用于研究信号本省,如波形同步性和周期性
          2)短时自相关函数
          3)修正短时自相关函数(解决基音周期宽,是窗和预期的基音周期相适应)
          4)短时平均复查函数(避免乘法,简化运算,与自相关函数有类似的作用)
     5.语音端点检测(用于有/无声或是浊/清/无声判定)
          1)双门限前端检测(存在较大时延)
          2)多门限过零率前端检测(解决方法1的缺陷)
          3)基于FM-AM模型的端点检测(利用算子输出能量进行端点检测,相比常规的基于短时能量的端点检测方法有较好的效果)
     6.基于高阶累积量的语音端点检测
          1)噪声环境下的端点检测(目前提出的方法只适用于不同适用环境)
          2)高阶累积量和高阶谱
          3)基于高阶累积量的端点检测(广泛应用于非高斯及非循环平稳信号中 ;核心:任何类型的高斯信号,其三阶以上的高阶累积量均为0 )

第四章 短时傅里叶变换
     1.短时傅里叶变换(短时傅里叶变换是窗选语音信号的傅里叶变换,Xn(ejw)  )
     2.短时傅里叶变换的取样率(针对避免混叠;三种取样率:时间取样率、频域取样率、综合取样率)
     3.语音信号的短时综合(用于由Xn(ejw)恢复x(n)的问题;两种方法,滤波器组求和法与FFT求和法 存在对偶性)
          1)滤波器组求和法(与频率取样有关;性能较好,因为其对噪声敏感性较小)
          2)FFT求和法(与时间取样有关)
     4.语谱图(显示大量与语句特性相关的信息,综合了频谱图与时域波形的优点,直观显示语音频谱随时间变化的情况,是一种动态的频谱)

第五章 倒谱分析和同态滤波
     1. 同态信号处理(可实现将卷积关系变成求和关系的分离处理,以达到解卷的效果;用于非加性组合信号,其中有包括乘性和卷积性组合信号)
     2. 同态信号处理的基本原理
          分三步:
          1)特征系统(将卷积信号转化为加性信号;一分三步:Z变换,对数运算,逆Z变换)
          2)线型系统
          3)逆特征系统(将加性信号转化为卷积信号;一分三步:Z变换,指数运算,逆Z变换 )
     3. 复倒谱和倒谱
          1)复倒谱(输入信号进行特征系统后得到的时域信号,成为输入信号的复倒谱,对应倒谱域)
          2)倒谱(相对于复倒谱来说,取对数阶段,只取幅度的对数,除去相位的信息;倒谱运算相对简单,由于不含相位信息,不能恢复原始性)
     4. 语音信号两个卷积分量复倒谱的性质
          1)声门激励信号(较重要的性质:可用高复倒谱窗在复倒谱域中提取浊音激励信号的特性)
          2)声道冲激响应序列(较重要的性质:可用低复倒谱窗在复倒谱域中提取声道冲激响应)
     5. 避免相位卷绕的算法
          1)相位卷绕:复倒谱取对数是进行的是复对数运算,此时存在相位多只问题,称其为相位卷绕。
          2)避免的方法(微分法(不适用,会产生频谱混叠),最小相位信号法,递推法(x(0)不能过小))
     6. 语音信号复倒谱分析实例
     7. Mel频率倒谱系数(MFCC;应用于语音识别和说话人识别 )
          1)Mel频率滤波器组(基于人耳在1KHZ以下为频率的线性尺度,1KHZ以上为对数尺度,是人二对低频信号比高频信号更敏感的特点)
          2)MFCC(重要特点:对频率轴不均匀的划分;该参数常用于语音识别中,可进行端点检测)
3)计算过程:(1)对信号分帧,预加重,hamming窗处理,STFT 得到频谱(2)使信号的线性幅度谱通过L个通道的Mel滤波器组并对输出累加(3)对滤波器输出取对数,在进行DCT(离散余弦变换),得到MFCC

第六章 线性预测分析
LPC的基本思想:一个语音的取样可用过去若干语音取样的线性组合来逼近。通过使实际语音取样与LPC取样间差值的平方和,即进行LMS(最小均方误差)逼近,可决定唯一的一组预测系数,而它们就是线性组合中的加权系数。
     1.线性预测的基本原理(基于AR模型,用一个模型表示被分析信号)
     2.线性预测方程的建立(因为信号模型的建立是有信号估计模型参数的过程,信号是客观存在由一个有限数目参数的模型进行表示的,不可能完全准确,总会存在误差,因而求解LPC系数是一个逼近的过程,采用逆滤波器法来逼近)
     3.线性预测分析的解法(1)——经典解法
1)自相关法(这种解法在整个时间范围内使误差最小;加窗处理;高效求解、精度低、会引入误差,能保证解的稳定性,适合硬件实现)
2)协方差法(这种解法可使信号N个样本上的误差最小;不加窗处理;精度高、不能保证解的稳定性 ,适用于平稳信号,存在对中间量比例运算的困难)
     4.线性预测分析的解法(2)——格型法(解决自相关与协方差法的精度与稳定性存在矛盾的问题)
          求解方法:
          1)正向格型法(逼近原则:正向均方差;不能保证解的稳定性)
          2)反向格型法(逼近原则:正向均方差;不能保证解的稳定性 )
          3)几何平均法(非逼近法;通过正向格型法Ki与反向格型法Ki 的几何平均求解;能保证解的稳定性 )
          4)Burg法(非逼近法;通过正向和反向均方误差纸盒的最小求解;能保证解的稳定性 )
5)协方差格型法(非逼近法; 针对原格型法减小其运算量,改写B\C\E的表达式改进格型法求解;保持格型法的灵活性、解的稳定性和精度,运算量与自相关法相近)
     5.线性预测应用——LPC谱估计和LPC倒谱
          1)谱估计
          2)LPC复倒谱
          3)LPC估计与其他谱分析方法的比较     
     6.线谱对(LSP)分析(频域参数;既有良好的量化和插值特性;以AR模型为基础)
     7.极零点模型(为了获取更精确的解且节省运算量;存在解法困难,难以保证收敛于最佳值,且难以确定模型阶数)

第七章 语音信号的非线性分析
     小波变换


0 0
原创粉丝点击