语音信号处理实验

2022-07-26

第一篇：语音信号处理实验

实验一语音信号分析与处理

学号姓名注：1)此次实验作为《数字信号处理》课程实验成绩的重要依据，请同学们认真、独立完成，不得抄袭。

2)请在授课教师规定的时间内完成;

3)完成作业后，请以word格式保存，文件名为：学号+姓名

4)请通读全文，依据第2及第3 两部分内容，认真填写第4部分所需的实验数据，并给出程序内容。

1. 实验目的

(1) 学会MATLAB的使用，掌握MATLAB的程序设计方法

(2) 掌握在windows环境下语音信号采集的方法

(3) 掌握MATLAB设计FIR和IIR滤波器的方法及应用

(4) 学会用MATLAB对语音信号的分析与处理方法

2. 实验内容

录制一段自己的语音信号，对录制的语音信号进行采样，画出采样后语音信号的时域波形和频谱图，确定语音信号的频带范围;使用MATLAB产生白噪声信号模拟语音信号在处理过程中的加性噪声并与语音信号进行叠加，画出受污染语音信号的时域波形和频谱图;采用双线性法设计出IIR滤波器和窗函数法设计出FIR滤波器，画出滤波器的频响特性图;用自己设计的这两种滤波器分别对受污染的语音信号进行滤波，画出滤波后语音信号的时域波形和频谱图;对滤波前后的语音信号进行时域波形和频谱图的对比，分析信号的变化;回放语音信号，感觉与原始语音的不同。

3. 实验步骤

1)语音信号的采集与回放

利用windous下的录音机或其他软件录制一段自己的语音(规定：语音内容为自己的名字，以wav格式保存，如wql.wav)，时间控制再2秒之内，利用MATLAB提供的函数wavread对语音信号进行采样，提供sound函数对语音信号进行回放。

[y,fs,nbits]=wavread(file),

采样值放在向量y中，fs表示采样频率nbits表示采样位数。Wavread的更多用法请使用help命令自行查询。

2)语音信号的频谱分析

利用fft函数对信号进行频谱分析

3)受白噪声干扰的语音信号的产生与频谱分析

①白噪声的产生：

N1=sqrt(方差值)×randn(语音数据长度，2)(其中2表示2列，是由于双声道的原因) 然后根据语音信号的频谱范围让白噪声信号通过一个带通滤波器得到一个带限的白噪声信号N2;

带通滤波器的冲激响应为：

hB(n)=c2

sinc(c2

(n))c1

sinc(c1

(n)) 其中ωc1为通带滤波器的下截止频率，

ωc2为通带滤波器的上截止频率。其中下截止频率由每个人的语音信号的最高频率确定滤波器的长度N由滤波器的过渡带确定，一般不宜太小(大于1000)，α=(N-1)/2; ②信号y通过低通滤波器，得到信号为x1

低通滤波器的冲激响应为：

hL(n)c1sinc(c1

(n))其中的ωc1与上面的带通滤波器的下截止频率一致，滤波器的

长度N也于上面的带通滤波器一致，α=(N-1)/2

③将N1加上x1得到一个受到噪声污染的声音信号

4)据语音信号的频带情况，设计FIR和IIR两种滤波器

5)用滤波器对受污染语音信号进行滤波

FIR滤波器fftfilt函数对信号进行滤波，IIR滤波器用filter函数对信号进行滤波

6)比较滤波前后信号的波形与频谱

7)回放滤波后的语音信号

4. 实验数据及实验程序

实验数据

1)原始语音信号的时域波形和频谱图及语音信号的频带范围

2)带限白噪声信号的时域波形和幅频特性

3)受污染语音信号的时域波形和幅频谱图

4)滤波器的频响特性图

FIR滤波器的幅频响特性图

IIR滤波器的幅频响特性图

5)滤波后语音信号的时域波形和频谱图

6)滤波前后的语音信号时域波形对比图和幅频谱对比图

7)将实验的资料的电子文档交给班长(建立一个文件夹，里面包括：①实验报告的电子版;②采集的语音信号电子文件;③受污染的语音信号及滤波后的语音信号存在文件名为“姓名+学号.mat”文件的文件中)

实验程序：

1)实验主程序

2)FIR滤波器子程序

3)IIR滤波器子程序

第二篇：DSP语音信号处理

第一章绪

论 ......................................................................................................... 1

1.1课程设计的目的及意义 .................................................................................. 1 1.2设计要求 .......................................................................................................... 1 1.3 研究内容 ......................................................................................................... 1

第二章语音信号处理理论基础 ........................................................................ 3

第三章

系统方案论证 ..................................................................................... 5 第四章

GUI设计实现 ..................................................................................... 6

4.1 图形用户界面概念 ......................................................................................... 6 4.2用户界面设计 .................................................................................................. 6

4.2.1 GUI设计模板 ........................................................................................ 6 4.2.2 GUI设计窗口 ........................................................................................ 6 4.2.3 GUI设计窗口的基本操作 .................................................................... 6 4.2.4 语音的录入与打开 ................................................................................ 9 4.3课程设计的软件实现 .................................................................................... 9

4.3.1语音信号的短时谱 ................................................................................. 9 4.3.2 自相关方法估计语音信号的声道参数 .............................................. 10 4.3.3 基音周期检测 ...................................................................................... 12 4.4 GUI实验箱操作界面设计 ............................................................................ 14 第五章心得体会 .................................................................................................. 15 参考文献 ................................................................................................................... 16

摘

要

语音信号处理是研究数字信号处理技术和语音信号进行处理的一门学科，是一门新型的学科，是在多门学科基础上发展起来的综合性技术，它涉及到数字信号处理、模式识别、语言学。语音信号处理是研究用数字信号处理技术对语音信号处理的一门学科。处理的目的是要得到一些语音参数以便高效的传输或存储;或者是通过处理的某种运算以达到某种用途的要求。语音信号处理又是一门边缘学科。如上所诉，它是“语言语音学”与“数字信号处理”两个学科相结合的产物。

语音信号处理属于信息科学的一个重要分支，大规模集成技术的高度发展和计算机技术的飞速前进，推动了这一技术的发展。在数字音频技术和多媒体技术迅速发展的今天，传统的磁带语音录放系统因体积大、使用不便、放音不清晰而受到了巨大挑战。本次课程设计提出的体积小巧，功耗低的数字化语音存储与回放系统，可以有效的解决传统的语音录放系统在电子与信息处理的使用中受到的限制。

本文提出了语音信号处理课程建设的实验环节中的一些考虑，作为专业课程的学习，实验内容不能仅仅停留在验证性实验上，还应增加实验延伸的设计要求，是学生加深对理论分析认识的同时，强调培养学生的实际动手能力和知识综合运用能力。从而提高语音信号的教学和实验的质量。实验内容采用MATLAB编程实现，不仅易于语音信号处理的实现，更易引导学生完成实验延伸的设计。

第一章绪

论

1.1课程设计的目的及意义

在我们的现实生活中从磁带、录像带到CD、VCD、DVD;从黑白电视机、彩色电视机、高清晰度电视机到具有数字信号处理功能的电视机;从留声机、录音机到语音信箱;现在正出在模拟信息到数字信息的变革之中，传统的磁带语音录放系统因其体积大，使用不便，在电子与信息处理的使用中受到许多限制。

虽然，目前广播电视系统尚未实现真正的数字化，相信在不久的将来，真正的数字电视、数字收音机、数字收录机将进入家庭。所以，研究音频信号的数字化存储、处理和回放系统有着很重要的现实意义。

通过设计语音信号实验箱可以对语音信号实现各种形式的变换，因此学会对语音信号的处理，也可自行研究将此语音处理技术应用到现实生活中。

语音信号处理的一门比较实用的电子工程的专业课程，语音是人类获取信息的重要来源和利用信息的重要手段，通过语言相互传递信息是人类最重要的基本功能之一，语音是人类特有的功能，它是创造和记载几千年来人类文明史的根本手段，是人类最重要、最有效、最常用和最方便的交换信息的形式。

语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科，它是一门新兴的学科，同时又是综合性的多学科领域刚也涉及面很广的交叉学科。

1.2设计要求

(1)学会MATLAB的使用，掌握MATLAB的程序设计方法; (2)掌握在windows环境下语音信号的采集方法; (3)掌握数字信号处理的基本概念，基本理论和基本方法; (4)掌握MATLAB设计方法;

(5)学会用MATLAB对信号进行分析和处理。

1.3 研究内容

1.理论依据

根据设计要求分析系统功能，掌握设计中所需理论(采样频率、采样位数的

概念，采样定理; 时域信号的FFT分析;数字滤波器设计原理和方法，各种不同类型滤波器的性能比较)，阐明设计原理。 2.信号采集

采集语音信号，并对其进行FFT频谱分析，画出信号的时域波形图和频谱图。 3.构造受干扰信号并对其进行FFT频谱分析

对所采集的语音信号加入干扰噪声，对语音信号进行回放，感觉加噪前后声音的变化，分析原因，得出结论。并对其进行FFT频谱分析，比较加噪前后语音信号的波形及频谱，对所得结果进行分析，阐明原因，得出结论。 4.数字滤波器设计

根据待处理信号特点，设计合适数字滤波器，绘制所设计滤波器的幅频和相频特性。 5.信号处理

用所设计的滤波器对含噪语音信号进行滤波。对滤波后的语音信号进行FFT频谱分析。画出处理过程中所得各种波形及频谱图。

对语音信号进行回放，感觉滤波前后声音的变化。比较滤波前后语音信号的波形及频谱，对所得结果和滤波器性能进行频谱分析，阐明原因，得出结论。 6.设计图形用户界面

设计处理系统的用户界面,在所设计的系统界面上可以选择滤波器的参数,显示滤波器的频率响应,选择信号等。

第二章语音信号处理理论基础

语音采集原理是，人耳能听到的声音是一种范围为20Hz—20kHz，而一般语音频率最高为3.4kHz。语音的采集是指语音声波信号经麦克风和高频放大器转换成有一定幅度的模拟量电信号，然后再转换成数字量的全过程。

本次设计的基本原理是对语音的录音和放音进行数字化控制。其中，关键技术在于：为了增加语音存储时间，提高存储器的利用率，采用了非失真压缩算法对语音信号进行压缩后再存储，而在回放时再进行解压缩;同时，对输入语音信号进行数字滤波以抑制杂音和干扰，从而确保了语音回放的可靠质量。

通过设计一个GUI实验箱，并添加相应的控制控件，添加一个声音文件，通过MATLAB编程，使其通过各种按钮实现语音信号处理的各种功能，最后做成一个完整的语音信号处理实验箱。

语音检测算法是现在语音信号处理研究的一个热点。近些年来，语音信号处理技术伴随着人们对通讯技术升级的需求得到了迅猛的发展。IP电话已经走向大规模产业化应用，并以其低廉的成本和满意的话音质量成为通讯供应商竞争的利器，大有取代传统电话的趋势。语音识别技术也已经实现了与说话者无关的大词汇量连续语音识别，并试图从试验研究走向商用。说话者识别技术作为一个新一代的门禁安防技术也已经出现商业应用。很多单工的通讯设备可以通过语音检测技术的应用实现收发状态的自动转换而以比较小的代价达到双工设备的功能。语音检测技术作为这些语音处理算法中的核心预处理单元，成为这些技术能否走向成熟商业应用的关键技术之一。实际通讯环境中会遇到各种不同类型、不同强度的噪声。它们各自在时域或频域中有互不相同的特点，没有一致的统计参数。语音信号本身也是一个时变的复杂信号。不同的语言，不同的音位(语音中的最小发声单位)各不相同。

总之，实际中的噪声和语音信号都是复杂的时变信号。如果不是面向特定背景噪声的应用，通过寻找噪声的共同特征以构建一个噪声信号与语音信号的区分函数是不现实的。语音信号处理本身是一个涉及到传统数字信号处理、统计信号处理、模式识别与建模、发声学、语音语言学等多学科的综合技术。论文在前人研究的基础上，从语音信号的形制机理出发，对语音信号中的基本成分—轻音和浊音的特征进行了深入的研究。Source-Filter模型在语音信号建模中有着广泛的应用，论文在基于Source-Filter模型求取语音信号的LPC谱中发现，语音的短时稳定性(short time stationary)在LPC谱中有着不同于噪声信号的鲜明体现，从而提出了基于音位共振峰轨迹跟踪的语音检测新方法。论文对新算法与国际电信联盟(ITU)的G729B推荐语音检测标准算法进行了对比验证，证明在强背景噪声环境下新算法的性能有20%左右的提高。同时新算法也体现出比G729B更

强的背景噪声适应能力。在算法的实现中，局部大能量的噪声会形成LPC谱中的局部极大值点，它具有类似语音共振峰的特征。为了消除噪声极大值点对音位共振峰轨迹跟踪的不良影响，论文提出了一个共振峰的形态判别标准—音位共振峰的幅值峰谷比原则，并通过大量的试验研究确定了峰谷比的优化量值。试验证明，此方法是剔除局部噪声极值点的有效方法。论文工作将新算法在一个基于TI TMS320C6711的数字信号处理器平台上实时实现。在实现过程中，使用了幅值、步长的分段拟合和插值算法，大大降低了复杂数学函数的运算时间，满足了算法了实时性要求。

第三章

系统方案论证

在进行模拟/数字信号的转换过程中，当采样频率fs.max大于信号中最高频率fmax的2倍时，则采样之后的数字信号完整的保留了原始信号中的信号，一般实际应用中保证采样频率为信号最高频率的5—10倍;采样定理又称奈奎斯特定理。

一、采样频率是指计算机每秒钟采集多少个声音样本，是描述声音文件的音质、音调、衡量声卡、声音文件的质量标准。采样频率越高，即采样的间隔时间越短，则在单位时间内计算机得到的声音样本数据就越多，对声音波形的表示也就越精确，采样频率与声音频率之间有一定的关系，根据奈奎斯特理论，只有采样频率高于声音信号最高频率的2倍的时候，才能把数字信号表示的声音还原成为原来的声音，这就是说采样频率是衡量声卡采集、记录和还原声音文件的质量标准。

二、采样位数即采样值或取样值，用来衡量声音波动变化的参数，是指声卡在采集和播放声音文件时候使用数字声音信号的二进制为数。采样频率是指录音设备在一秒钟内对声音信号的采样次数，采样频率越高声音的还原就越真实越自然。

三、采样位数和采样频率对于音频接口来说是最为重要的两个基本指标，也是选择音频接口的两个重要标准。无论采样频率如何，理论上来说采样的位数决定了音频数据最大的力度范围。每增加一个采样位数相当于力度范围增加了6dB。采样位数越多则捕捉到的信号越精确。对于采样率来说你可以想象它类似于一个照相机。显然采样率越高，计算机提取的声音越多，对于原始的还原也越加精确。

第四章

GUI设计实现

4.1 图形用户界面概念

图形用户界面或图形用户接口是指采用图形方式显示的计算机操作环境由用户接口。与早期计算机使用的命令行界面相比，图形界面对于用户来说更为简便易用。

GUI是MATLAB提供的图形用户界面开发环境，提供了一系列用于创建图形用户界面的工具，从而简化界面布局和编程工作。

4.2用户界面设计

4.2.1 GUI设计模板

在MATLAB主窗口中，选择File菜单中的New菜单项，再选择其中的GUI命令，就会显示图形用户界面的设计模板。

MATLAB为GUI设计一共准备了四个模板，分别是Blank GUI、GUI with Uicontrols、GUI with Axes and Menu、Modal Question Dialog。

当用户选择不同的模板时，在GUI设计模板界面的右边就会显示出与该模板对应的GUI图形。

4.2.2 GUI设计窗口

在GUI设计模板中选中一个模板，然后单击OK按钮，就会显示GUI设计窗口，选择不同的GUI设计模式时，在GUI设计窗口中显示的结果是不一样的。

GUI设计窗口由菜单栏、工具栏、空间工具栏以及图形对象设计区等部分组成。GUI设计窗口的菜单栏有File、Edit、View、Layout、Tools和Help六个菜单项，使用其中的命令可以完成图形用户界面的设计操作。

4.2.3 GUI设计窗口的基本操作

(1)前面板的设计：在GUI设计窗口创建图形对象后，通过双击该对象，就会显示该对象的属性编辑器。如下图所示。例如，创建一个Push Button对象，并设计该对象的属性值。

图4-1 按钮属性编辑器

通过以上的按钮属性编辑器可以根据个人情况对按钮的名称、颜色、大小等方面的属性进行修改，使按钮在视觉上变的更加完美。

(2)按钮功能的实现：在GUI设计窗口创建按钮后，通过右键单击按钮，选择View callbacks下的callback对相应的按钮进行编程，使按钮实现相应的功能，如下图所示对按钮的响应功能进行设置。

图4-2 按钮功能编辑器

进入到按钮程序编辑窗口，通过编程即可实现按钮的相应功能，如下图：

图4-3 按钮的编程实现界面

通过对各个按钮控件的修改，和对m文件程序的添加就完成对GUI窗口的设计，最后得到的图形化操作界面如下图所示:

图4-4 图形化操作界面

4.2.4 语音的录入与打开

在MATLAB中，[y,fa,bits]=wavread(‘Blip’,[N1 N2]);用于读取语音，采样值放在向y中，fs表示采样频率，bits表示采样位数。[N1 N2]表示读取从N1点到N2点的值。

Suond(x，fs，bits);用于对声音的回放，向量y则就代表了一个信号也就是说可以像处理一个信号表达式一样处理这个声音信号。

4.3课程设计的软件实现

4.3.1语音信号的短时谱

周期性声门波可表示为:

(4-1) 其中，g[n]是声门波的单周期的波形，p[n]是间隔为P的周期采样序列。当u[n]通过线性非时变声道，且该声道的单位冲击响应为h[n]时，声道输出为：

(4-2) 为了观察一段语音，需要降生到输出乘以一个一时刻τ 为中心的窗函数 w[n,τ] ,即得到：

(4-3)

这段语音信号的频域表达式为：

即语音信号的谱包络为

(4-4)

语谱图就是现实时变频谱幅度特征的图形表达式为：

(4-5)

将语音信号短时谱程序写入到MATLAB中得到单色语谱图的波形如下：

图4-5 语音信号单色语谱图

4.3.2 自相关方法估计语音信号的声道参数

由均方预测误差最小的得到正则方程：

其中，

在最佳解时的误差为

在自相关法中式4-6，式4-8变为

(4-10) 由式4-9和式4-10可列出方程组式4-11 10

(4-6)(4-7)(4-8)(4-9)

(4-11)

解方程组式4-9求出线性预测系数，通过误差式4-11可求出增益G

(4-12)

加窗后信号频谱图如下：

图4-6 加窗后信号频谱图

通过以上的方法，改变参数分别求得4极点模型频率响应和6极点模型频率响应，6极点波形如下图所示：

图4-7 六极点波形图

最后通过以上方法用一个函数分别实现以上三个功能，三个波形显示在一个界面，通过观察图形，查看它们之间的分别。三者比较所得到的波形如下：

图4-8 三者比较波形图

4.3.3 基音周期检测

数据为浊音语音信号speech1_10k(10000样点/秒)用25ms的汉明窗对语音信号speech1_10k进行加窗处理，并画出所得到的加窗信号的自相关函数，再用根据中心消波法及三电平中心消波法原理改进程序，最后对比中方法基音检测的效果并分析结果。

实验原理及方法

相关检测原理：对于离散的数字语音信号序列x(n)，如果周期N，则自相关函数也是同周期的周期函数。即：x(n)=x(n+N)。清音信号没有周期性，他的自相关函数也没有周期。浊音新海具有准周期性。自相关基音检测正是利用这一性质对语音信号进行基音检测的。

中心消波法检测原理：中心消波处理是使用如下图所示的中心消波函数进行处理的：

图4-9 中心消波检测图

三电平消波法原理：为了减少自相关计算中的乘法运算，可以把上述中心消

波以后的信号y(n)的自相关用两个信号的互相关代替，其中一个信号是y(n)另一个信号是对y(n)进行三电平量化产生的结果。且这个信号有三种可能的取值，因而这里的互相关计算只需要做加减法，而这个互相关序列的周期性与y(n)的自相关序列是近似相同的。

三电平法对语音信号处理得到的波形如下：

图4-10 三电平法波形图

中心消波法得到的波形如下图：

图4-11 中心消波法波形图

4.4 GUI实验箱操作界面设计

通过对各个控件的编程和对参数的设计，最后得到的GUI实验箱操作界面如下图所示，通过界面上的各个按钮即可实现相应的功能。

图4-12 GUI实验箱操作界面

第五章心得体会

通过本次课程设计完成了对语音信号的读取与打开，与课题的要求十分相符;初略的完成了界面的设计，但也存在相当的不足，达到了打开语音文件，显示已定波形。语音信号处理时语音学与数字信号处理技术相结合的交叉学科，将语音当做一种特殊的信号，即一种“复杂向量”来看待。也就是说，体现了数字信号处理技术。

本次课程设计时希望将数字信号处理技术应用与某一实际领域，这里就是指对语音的处理。作为存储与计算机中的语音信号，其本身就是离散化了的向量，我们只需要将这些离散的量提取出来美酒可以对其进行处理了。

本次课设，用到了处理数字信号的强有力工具MATLAB，通过MATLAB李的几个命令函数的调用，很轻易的在实际化语音与数字信号的理论之间搭了一座桥。

最后，还利用了MATLAB的另一强大功能——GUI界面设计。设计出了一个建议的用户应用界面，可以让人实现界面操作。

通过本次课程设计让我更加了解了语音信号处理在现实中的强大的应用空间，同时查阅了很多相关的资料，应用MTALAB软件来完成，熟练掌握了MATLAB软件，本次课程设计要求用GUI设计模块，查阅了很多资料，更加深刻的陆奥了了这方面知识。

本次课程设计，我明白了理论的学习需要在实践中才能得到巩固。在课程设计中，只有动手慢慢研究，才能真正了解MATLAB软件平台中可以直接设计数字滤波器的各个函数的调用，对设计GUI实验箱的所有函数的运用有了比较好的认识。

通过这个课程设计，我学到了很多MATLAB和语音信号的知识，提高了自己在语音信号设计方面的知识能力，动手能力和思维能力都得到了一定的提升，希望自己以后可以更多的继续学习这一门课程设计方面的知识。

参考文献

[1]陈怀琛.MATLAB及在电子信息课程中的应用【M】.北京电子工业出版社.2008.1 [2]张文.基于MATLAB的语音信号的滤波域实现【M】.山西电子技术.2008.2 [3]徐靖涛.基于MATLAB的语音信号分析与处理【M】.重庆科技学院学报.2008.1 [4]张威.MATLAB基础与编程入门【M】.西安电子科技大学出版社，2006. [5]周渊，王炳和，刘斌胜.基于MATLAB的噪声信号采集和分析系统的设计【J】.噪声控制.2004(7)：52-54.

[6]张雄伟，陈量，杨吉斌.现代语音处理技术及应用【M】.北京：机械工业出版社.2003

第三篇：《语音信号处理及加密》课程总结

本学期，我选修了《语音信号处理及加密》这门课。在本门课程的学习中，我系统地学习了现代语音编码技术的基本概念和基本知识，如什么是语音编码、对语音编码的要求、现代语音编码技术的作用和意义、现代语音编码系统的构成、分类以及主要性能指标等等，使我对现代语音编码有了初步的概要的了解。最近的二十几年来，随着数字通信、计算机、信号处理、微电子等相关技术的发展和广泛应用，语音编码技术发展非常迅速，取得了一系列突破性的成果，极大地促进了数字通信的发展和普及，是现代通信以及信息技术的一个亮点。所谓的现代语音编码技术，主要就是指最近二十几年发展起来并得到广泛应用的语音编码技术。

一、为什么要学习语音编码技术?

由于PCM的编码速率过高，不适应通信和信息技术发展的需要，为了压缩编码速率，减少传输占用的带宽，人们一直在致力于研究开发新的语音编码技术。这种强烈的客观需求是推动语音编码技术发展的巨大动力。另一方面，最近二十几年来，随着计算机、微电子、信号处理等相关技术的迅速发展和广泛应用，尤其是随着数字信号处理算法和器件(DSP芯片)的飞速发展和应用，为中、低速率语音编码器的发展和应用准备了必要条件。正是在这种情况下，从20世纪80年代以来的二十几年间，语音编码技术进入了一个飞速发展的时期。

现代语音编码技术就是指20世纪80年代以来发展起来的新的语音编码技术，这些新的语音编码技术的出现，极大地推动了通信和信息技术的发展，是现代通信发展史中的一个闪光点。

学习和掌握现代语音编码技术的基础知识、分析方法、关键技术和算法十分重要，只有了解和掌握这些已经成熟或基本成熟的方法和技术，才能很好地适应现代通信和信息技术发展的需要，才能研究开发新的方案和算法，提出具有自主知识产权的技术方案。

二、我学到了什么?

语音编码为信源编码，就是对模拟的语音信号进行编码，将模拟信号转化成数字信号，从而降低传输码率并使之可以在数字信道中传输。语音编码的目的是在保持一定得算法复杂程度和通信时延的前提下，占用尽可能少的通信容量，传送尽肯能高质量的语音。

语音编码按照传统的分类方法通常分为三类：波形编码、参数编码和混合编码。 (一)波形编码

波形编码是将时间域或频率域或变换域信号直接编码为数字信号，力求使重建语音波形保持原始语音信号的波形形状。波形编码具有语音质量好、抗噪声性能强等优点。其缺点是所需用的编码速率高，一般在64~16Kb/s之间。波形编码是应用最早、人们最熟悉的语音编码技术。波形编码通常包括时域波形编码、频域波形编码和变换域波形编码三种类型。在课程学习中，我对这三种编码技术有了初步的了解。 1) 时域波形编码

课程中介绍了几种常用的时域波形编码，即脉冲编码调制(PCM)、增量调制(DM或∆M)、差分脉冲调制(DPCM)和自适应差分脉冲调制(ADPCM )。 PCM是应用最早和最广泛的语音编码技术，在很长一段时间内，它一直在语音编码中占据统治地位，对于通信的数字化起到过极为重要的推动作用。近年来语音编码技术取得一系列突破性进展，出现了许多崭新的编码算法和技术，已经动摇了PCM的统治地位，但在通信和信息系统中，PCM的应用依然相当普遍。其工作原理是：在译码端，输入模拟信号经过取样、量化和编码，实现模/数转换，变换成为数字信号;到了译码端，再将接收到的数字信号通过译码、低通平滑滤波实现数/模转换，恢复为模拟信号。

DPCM是对相邻样值之间的差值进行编码，而不是对取样值本身进行编码，这样就能够降低编码速率。由于它是对预测误差信号进行编码，而预测误差信号的能量比输入信号的能量小得多，因此量化限幅电平也可以小得多。这样，在量化电平数不变的条件下，量化器的量化间隔就比输入信号的量化间隔小得多，使得量化噪声减少。而在保持信噪比不变的情况下，DPCM就可以通过减少量化比特数，降低编码速率。

ADPCM是采用自适应量化及高阶自适应预测技术的DPCM。自适应线性预测以帧为单位进行，根据本帧语音波形的时间相关性确定预测系数，使得预测误差信号的方差最小。

DM是DPCM的一种特殊形式。当系统的取样品率大于Nyquist频率许多倍时，相邻取样值之间的相关性很强，差分信号的幅度值会在一个很小的范围内变化，于是就可以用正负两个固定的电平来表示差分信号。因此，在DM中仅用1bit即可对差分信号进行量化，也就是只需指示出极性即可。 2) 子带编码

子带编码是一种应用比较广泛的语音编码技术，也是一种典型的频域波形编码技术。它利用带通滤波器(BPF)组首先将输入信号分割成若干个不同的小的频带(称为子带)，通过等效于单边带调幅的调制过程，将各子带搬移到零频率附近，形成低通信号后，再以Nyquist速率对各子带输出取样，并对这些取样值分别进行通常的数字编码。在接收端，将各子带编码信号进行译码，并重新调制回原始位置，再将所有子带输出相加，恢复出原始信号。把语音信号分成若干子带进行编码主要有三个优点。首先，如果对不同的子带合理的分配比特数，就可能分别控制各子带的量化电平数目以及相应的重建信号的量化误差方差值，使误码率更精确地与各子带的信源统计特性相匹配。其次，通过调整不同子带的比特分配数值，可以控制总的重建误差频谱形状，使误差谱的形状适应人耳听觉特性，获得更好的主观听音质量。第三，子带编码的另一个优点是各子带内的量化噪声相互独立，被束缚在自己的子带内，这样就能避免输入电平较低的子带信号被其他子带的量化噪声所淹没。这种情况在非子带编码中就会发生，除非专门采用噪声谱形形成等技术来控制。 3) 变换域编码。

变换域编码又称为变换域波形编码，是语音编码中经常使用的编码方式之一，尤其是在宽频带高音质声频编码中，变换编码应用更为广泛。

变换域编码是将通常在时域描写的语音信号变换到另外一些变换域中描写(这些变换通常采用正交变换)，然后再对变换后的信号进行量化和编码。在接收端，首先对通过信道传输的接收信号进行译码，然后进行反变换以恢复出原始输入的语音信号。在文献资料中经常介绍并在实际中获得广泛应用的集中主要正交变换是：K-L变换(K-LT或KLT)、W-H变换(W-HT或WHT)、Haar变换(HT)、斜变换(ST)、离散余弦变换(DCT)和离散傅里叶变换(DFT)。 (二)参数编码

参数编码又称为声源编码或声码器，有时又成为分析-综合编码，它是将信源信号在频域或其他变换与提取特征参数，然后对这些特征参数进行编码或传输;在译码端再将收到的数字信号译成特征参数，根据这些特征参数重建语音信号。参数编码是通过对语音信号特征参数的提取和编码，力求使重建语音信号具有尽可能高的可懂度，即保持原语音信号的语意，但重建语音信号的波形语言语音信号波形却相差甚远。参数编码的有点是可实现低速率语音编码，其编码速率可低至2.4kb/s以下。其缺点是语音质量差，自然度较低，即使是熟人一般也定不出来讲话的人是谁。此外，参数编码的坚韧性也不够好。

参数编码的基础是语音的产生模型。根据这一模型对语音信号进行分析，就可以得到语音的谱包络、基音周期以及清浊音判决等参数。然后就可以对这些参数进行编码和传输。译码中所使用的声道滤波器的形式，与编码器中的谱包络分析器的形式必须相对应，才能够在同样的语音产生模型基础上合成出发送端的语音信号。 (三)混合编码

语音混合编码是在采用线性预测编码(LPC)技术的语音参数编码的基础上，通过采用许多改进措施，使用合成分析法而形成的一种新的编码技术，是最近二十几年来在语音编码技术上的一种突破性进展，收到人们的普遍重视，发展迅速，应用广泛。它克服了波形编码和参数编码的缺点，吸收了它们的长处，在16~4kb/s速率上能够得到高质量的合成语音。多脉冲激励线性预测(MPE-LP)编码、规则脉冲激励线性预测(RPE-LP)编码和码激励线性预测(CELP)编码等都属于混合编码。

多脉冲激励线性预测(MPE-LP)编码是一种高音质语音编码算法，是第一个实用、有效的ABS-LPC类型的算法。在MPELPC中，不论是清音还是浊音，都用一帧中的有限多个脉冲经过最优化估值后作为激励信号。

规则脉冲激励线性预测(RPE-LP)编码是在MPELPC的基础上进一步改进而得到的。RPE-LTP编码方案的特点是算法简单，语音质量好，MOS分为4.0分。它是利用预测残差、感觉加权滤波器的单位冲击响应、位置脉冲模式等信息通过解线性方程组求得激励脉冲序列的，因此其算法较简单。

码激励线性预测(CELP)编码是目前应用最多的混合编码技术。CELPC采用分帧技术进行编码，帧长一般为20~30ms。CELPC基于合成分析(ABS)法的搜索过程、感觉加权、矢量量化(VQ)和线性预测(LP)技术。它用从码书中搜索出来的最佳码矢量，乘以最佳增益，代替线性预测的残差信号(余量信号)作为激励信号源。CELPC通常将每一语音帧分为2~5个子帧，在每个子帧内搜索最佳的码矢量最为激励信号。

三.学习体会

在现代通信中，随着科学技术的迅速发展，图像、数据等非话音信息在通信信息中所占的比例大大提高，而且这种提高的趋势仍然会继续下去。但是，到目前为止，在大多数通信系统中，传输醉倒的信息仍然是语音信号。在可以预见的未来的通信中，尽管语音信号在通信信息总量中所占的比例会有所下降，但仍然会是传输最多的信息。

语音编码技术在数字通信中的作用至关重要，现代语音编码技术已经成为通信技术中一个相当重要的学科，在各种通信网络中都得到广泛应用。在学习了这门课程之后，我对语音编码技术有了粗略的概念性的了解，并通过实验深入理解了语音编码及处理的基本原理，更加深刻地认识到语音编码的作用与意义。只有学习和掌握现代语音编码技术，我们才能更好地向着“降低编码速率，减少传输占用的带宽”的目标前进，推动语音编码技术的发展。