语音信号处理与分析

2024-04-20

语音信号处理与分析(共8篇)

篇1:语音信号处理与分析

实验一语音信号分析与处理

学号姓名注:1)此次实验作为《数字信号处理》课程实验成绩的重要依据,请同学们认真、独立完成,不得抄袭。

2)请在授课教师规定的时间内完成;

3)完成作业后,请以word格式保存,文件名为:学号+姓名

4)请通读全文,依据第2及第3 两部分内容,认真填写第4部分所需的实验数据,并给出程序内容。

1.实验目的(1)学会MATLAB的使用,掌握MATLAB的程序设计方法

(2)掌握在windows环境下语音信号采集的方法

(3)掌握MATLAB设计FIR和IIR滤波器的方法及应用

(4)学会用MATLAB对语音信号的分析与处理方法

2.实验内容

录制一段自己的语音信号,对录制的语音信号进行采样,画出采样后语音信号的时域波形和频谱图,确定语音信号的频带范围;使用MATLAB产生白噪声信号模拟语音信号在处理过程中的加性噪声并与语音信号进行叠加,画出受污染语音信号的时域波形和频谱图;采用双线性法设计出IIR滤波器和窗函数法设计出FIR滤波器,画出滤波器的频响特性图;用自己设计的这两种滤波器分别对受污染的语音信号进行滤波,画出滤波后语音信号的时域波形和频谱图;对滤波前后的语音信号进行时域波形和频谱图的对比,分析信号的变化;回放语音信号,感觉与原始语音的不同。

3.实验步骤

1)语音信号的采集与回放

利用windous下的录音机或其他软件录制一段自己的语音(规定:语音内容为自己的名字,以wav格式保存,如wql.wav),时间控制再2秒之内,利用MATLAB提供的函数wavread对语音信号进行采样,提供sound函数对语音信号进行回放。

[y,fs,nbits]=wavread(file),采样值放在向量y中,fs表示采样频率nbits表示采样位数。Wavread的更多用法请使用help命令自行查询。

2)语音信号的频谱分析

利用fft函数对信号进行频谱分析

3)受白噪声干扰的语音信号的产生与频谱分析

①白噪声的产生:

N1=sqrt(方差值)×randn(语音数据长度,2)(其中2表示2列,是由于双声道的原因)然后根据语音信号的频谱范围让白噪声信号通过一个带通滤波器得到一个带限的白噪声信号N2;

带通滤波器的冲激响应为:

hB(n)=c2

sinc(c2

(n))c1

sinc(c1

(n))其中ωc1为通带滤波器的下截止频率,ωc2为通带滤波器的上截止频率。其中下截止频率由每个人的语音信号的最高频率确定 滤波器的长度N由滤波器的过渡带确定,一般不宜太小(大于1000),α=(N-1)/2; ②信号y通过低通滤波器,得到信号为x1

低通滤波器的冲激响应为:

hL(n)c1sinc(c1

(n))其中的ωc1与上面的带通滤波器的下截止频率一致,滤波器的长度N也于上面的带通滤波器一致,α=(N-1)/2

③将N1加上x1得到一个受到噪声污染的声音信号

4)据语音信号的频带情况,设计FIR和IIR两种滤波器

5)用滤波器对受污染语音信号进行滤波

FIR滤波器fftfilt函数对信号进行滤波,IIR滤波器用filter函数对信号进行滤波

6)比较滤波前后信号的波形与频谱

7)回放滤波后的语音信号

4.实验数据及实验程序

实验数据

1)原始语音信号的时域波形和频谱图及语音信号的频带范围

2)带限白噪声信号的时域波形和幅频特性

3)受污染语音信号的时域波形和幅频谱图

4)滤波器的频响特性图

FIR滤波器的幅频响特性图

IIR滤波器的幅频响特性图

5)滤波后语音信号的时域波形和频谱图

6)滤波前后的语音信号时域波形对比图和幅频谱对比图

7)将实验的资料的电子文档交给班长(建立一个文件夹,里面包括:①实验报告的电子版;②采集的语音信号电子文件;③受污染的语音信号及滤波后的语音信号存在文件名为“姓名+学号.mat”文件的文件中)

实验程序:

1)实验主程序

2)FIR滤波器子程序

3)IIR滤波器子程序

篇2:语音信号处理与分析

1.课程设计目的………………………………………………………………(1)

2.课程设计基本要求……………………………………………...………….(1)

3.课程设计内容………………………………………..……………………..(2)

4.课程设计实现……………………………………………………..…..……………(3)

(1)语音信号的采集……………………………………………………..(5)

(2)语音信号的频谱分析………………………………………………..(6)

(3)设计滤波器和画出频率响应………………………………………..(6)

(4)用滤波器对信号进行滤波…………………………………………..(9)

(5)比较滤波前后语音信号的波形及其频谱…………………………..(9)

(6)回放语音信号………………………………………………………..(11)

(7)设计系统界面………………………………………………………..(13)

5、心得体会……………………………………………..……………………..(14)

篇3:语音信号的采样与分析

本文简要介绍了语音信号采样与分析的发展史以及语音信号的特征、采样与分析方法。第二节主要介绍语音信号的特点与采集, 仿真主要是验证奈奎斯特定理。第三节主要是对语音信号进行时域、频域上的分析。第四节是对语音信号的综合和分析, 包括语音信号的调制, 叠加, 和滤波。声音信号采集功能的实现是由MATLAB控制计算机声卡将传感器得到的模拟信号转换为数字信号并存储在计算机中;而信号分析功能是将采集得到的数据进行时、频域分析和各项数值分析等。整个系统设计主要包括系统的硬件配置、编制程序实现数据采集、编制程序实现数据分析及系统的界面设计四部分。

二、语音信号的特点与采样

1、语音信号的特点

在频域内, 语音信号的频谱分量主要集中在300~3400Hz的范围内。利用这个特点, 可以用一个防混迭的带通滤波器将此范围内的语音信号频率分量取出, 然后按8k Hz的采样率对语音信号进行采样, 就可以得到离散的语音信号。

在时域内, 语音信号具有“短时性”的特点, 即在总体上, 语音信号的特征是随着时间而变化的, 但在一段较短的时间间隔内, 语音信号保持平稳。在浊音段表现出周期信号的特征, 在清音段表现出随机噪声的特征。

2、语音信号的采集

在将语音信号进行数字化前, 必须先进行防混叠预滤波, 预滤波的目的有两个: (1) 抑制输入信号各领域分量中频率超出fs/2的所有分量, 以防止混叠干扰。 (2) 抑制50Hz的电源工频干扰。为了将原始模拟语音信号变为数字信号, 必须经过采样和量化两个步骤, 从而得到时间和幅度上均为离散的数字语音信号。采样时必须要注意满足奈奎斯特定理。语音信号经过预滤波和采样后, 由A/D变换器变换为二址制数字码。这种防混叠滤波通常与模数转换器做在一个集成块内, 因此目前来说, 语音信号的数字化的质量还是有保证的。采集到语音信号之后, 需要对语音信号进行分析, 如语音信号的时域分析、频谱分析、语谱图分析以及加噪滤波等处理。

三、语音信号的分析

1、语音信号分析技术

贯穿于语音分析全过程的是“短时分析技术”。根据所分析出的参数的性质的不同, 可将语音信号分析分为时域分析、频域分析、倒领域分析等。

2、语音信号的时域分析

语音信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时, 最先接触到并且也是最直观的是它的时域波形。语音信号本身就是时域信号, 这种方法直接利用语音信号的时域波形。语音信号的时域参数有短时能量、短时过零率、短时白相关函数和短时平均幅度差函数等, 这是语音信号的一组最基本的短时参数, 在各种语音信号数字处理技术中都要应用。

(1) 短时能量及短时平均幅度分析

短时能量和短时平均幅度函数的主要用途有: (1) 可以区分浊音段与清音段, 因为浊音时En值比清音时大的多。 (2) 可以用来区分声母与韵母的分界, 无声与有声的分界, 连字的分界等。 (3) 作为一种超音段信息, 用于语音识别中。

(2) 短时过零率分析

短时过零率表示一帧语音中语音信号波形穿过横轴的次数。在实际中求过零率参数时, 需要十分注意的一个问题是如果输入信号中包含有50Hz的工频干扰或者A/D变换器的工作点有偏移, 往往会使计算的过零率参数很不准确。为了解决前一个问题, A/D变换器前的防混叠带通滤波器的低端截频应高于50Hz, 以有效地抑制电源干扰。对于后一个问题除了可以采用低直流漂移器件外, 也可以在软件上加以解决, 这就是算出每一帧的直流分量并予以滤除。

对语音信号进行分析, 发现发浊音时, 其话音能量约集中在3k Hz以下。而发清音时, 多数能量出现在较高频率上。高频就意味着高的平均过零率, 低频意味着低的平均过零率, 所以可以认为浊音时具有较低的过零率, 而清音时具有较高的过零率。利用短时平均过零率还可以从背景噪声中找出语音信号, 可用于判断寂静无声段和有声段的起点和终点位置。在孤立词的语音识别中, 必须要在一连串连续的语音信号中进行适当分割, 用以确定一个一个单词的语音信号, 即找出每一个单词的开始和终止位置。此时, 在背景噪声较小时用平均能量识别较为有效, 而在背景噪声较大时用平均过零率识别较为有效。但在以弱摩擦音、弱燃破音、鼻音为语音开头或结尾时, 只用其中一个参量来判断语音的起点和终点是有困难的, 必须同时使用这两个参数。

3、语音信号的频域分析

语音信号的频域分析就是分析语音信号的频域特征。本文介绍的是语音信号的傅里叶分析法。因为语音波是一个非平稳过程, 因此适用于周期、瞬变或平稳随机信号的标准傅里叶变换不能用来直接表示语音信号, 而应该用短时傅里叶变换对语音信号的频谱进行分析, 相应的频谱称为“短时谱”。

4、语音信号的语谱图

把和时序相关的傅里叶分析的显示图形称为语谱图。语谱图是一种三维频谱, 它是表示语音频谱随时间变化的图形, 其纵轴为频率, 横轴为时间, 任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓谈来表示。

四、语音信号的综合仿真分析

(1) 录制一段自己的语音信号, 并对录制的信号进行采样; (2) 对语音信号进行调制; (3) 用经过调制的信号与原信号叠加; (4) 设计数字滤波器和画出频率响应; (5) 进行低通滤波, 比较滤波前后语音信号的波形及频谱。

五、总结

声音信号的采集与分析处理在工程应用中是经常需要解决的问题, 如何实时采集声音信号并对其分析处理, 从而找出声音信号的特征在科学研究中是一项非常有意义的工作。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息的形式。让计算机能听懂人类的语言, 是人类自计算机诞生以来梦寐以求的想法, 用现代手段研究语音信号, 使人们能更加有效地产生、传输、存储、获取和应用语音信息, 这对于促进社会的发展具有十分重要的意义。

摘要:随着现代计算机技术的普及和发展, 数字电子产品的使用越来越深入到人们的日常生活中。人类与数字化产品的交往已经密不可分。语音信号的处理作为新时代的一个课题越来越受到人们的重视。于是通过对自然声音的识别与处理不约而同的产生于许许多多科学研究人员的脑海中, 语音识别处理的出现就孕育而生了。语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科, 是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。本文简要介绍了语音信号采样与分析的发展史以及语音信号的特征、采样与分析方法。

关键词:语音信号,采样与分析

参考文献

[1]刘益成, 孙祥娥.数字信号处理[M].北京:电子工业出版社, 2009.[1]刘益成, 孙祥娥.数字信号处理[M].北京:电子工业出版社, 2009.

[2]邹理和.数字信号处理[M].北京:国防工业出版社, 1985.[2]邹理和.数字信号处理[M].北京:国防工业出版社, 1985.

篇4:语音信号处理与分析

【摘要】 本文主要介绍S12 JA00-A1用户机架的组成;S12 JA00-A1机架改造成AG机架所需要增加的板卡IPDA和CMRA;IPDA和CMRA板卡的安装位置、功能、作用及其工作方式;S12 AG改造后出现如语音单通故障现象的分析等。

【关键词】 PON AG 语音单通 连接线缆 原因分析及处理

随着IP技术的迅猛发展,软交换技术和OLT技术应用的愈发广泛,通信运营商都在进行以IP承载网络为主的固话交换网络的改造升级。为节省投资,上海贝尔公司一种全新的技术解决方案。

一、S1240 AG介绍

JA00-A1机架是上海贝尔公司S12交换机的J系列用户架,每架可装6个用户框,每框16块ALCN板(每块16个用户)和2块CMRA板等,整架提供1536个用户端口。其中7框、8框各增加1块IPDA板;其他4个框没有IPDA板。

1、IPDA板。IPDA板(主控板)是将 S12 ASM 控制功能和 A75XX 网关功能结合起来的 PBA板卡,也称POTS/ISDN 终端控制模块。IPDA板每架2块,主备份工作方式。2、CMRA板。CMRA板(中继汇聚的板卡)是提供ASMS 到IPDA 间互相传输通信量的中继模块。CMRA板每框2块,主备份工作方式。

二、语音单通原因分析及处理

1、故障现象:在电信某局进行S12改造AG,现场有5架JA00-A1设备,其中1架有电话单通现象。即用户在通话过程中会出现其中一方无音,另一方听回声,无音和回声的方向并不确定,有时是被叫无音,有时是主叫无音;被叫、主叫有固话也有手机用户。出现故障的用户,分布在各个用户框,具有不确定性。

2、原因分析:由于现场有5架AG,型号都是JA00- A1,软件版本以及config文件都是一样的,唯一的区别是IP地址不一样,所以排除软件原因。故障用户和出现时间具有不确定性,故排除是某1框单独故障,基本确定是整个机架产生的故障,有可能是主控板IPDA或者其他全局性的故障。

1)在EUMA上设置上联口镜像配置:

调测线连接到EUMA的调试口,直接登录进入,选择“4”配置mirror

EUMA> 4

1 - Enable/Disable Mirror;2 - Set Mirror Destination and Source port;3 - Get Mirror Status

选择1打开镜像功能,如果选择disable那么以前配置的镜像也随之无效。

EUMA>Mirror> 1

1 - Enable/Disable Mirror

1.Enable 2. Disable Your choice is?: 1

ACTION SUCCESS !!

设置镜像的源端口和目的端口,目的端口只能设置一个,源端口可以设置多个,但需分多次进行。

EUMA>Mirror> 2

2 - Set Mirror Destination and Source port

Mirror Destination port: 25 (EUMA的两个上联光口分别定义:25和26 现场光纤接1或者2分别对应内部端口号25和26)

ACTION SUCCESS !!

现实镜像配置情况:

EUMA>Mirror> 3

3 - Get Mirror Status

Mirror is ENABLED

Mirror Destination port is 26, Source port is {0 1} (EUMA上有8个电口,内部端口号0..7)

2)Wireshark抓包设计过滤分析

抓完整的全包后,过滤发生单通现象的用户端口;找到RTP号以后,过滤RTP:通过RTP过滤,发现单通的时候,并没有发生丢包,那么就可以确认并非丢包导致单通故障的发生;过滤语音包分析发生单通现象:没有丢包,在通话建立,几秒钟以后其中一方通话声音突然变得非常小,那么可以确认是在通话过程中突然出现的干扰导致,前面已经排除了软件原因,基本可以确定是来自硬件的干扰。

3、排查过程及解决方法:

1)全局性的故障,首先怀疑IPDA板,现场做了主备切换故障依旧,再将2块IPDA板全部更换还是故障依旧,至此IPDA的原因可以排除;2)检查后板上所有的PLUG以及214 08575和214 08574线缆,检查发现都没有错误,再用万用表检测两根线缆的线序和连通性无问题;3)更换7框左侧、8框右侧的后背板故障依旧;4)经过上面的排查基本上排除会产生干扰的硬件因素,最后检查现场改造时有没有将需要拆除的线缆全部拆除,发现有一些线缆还留在机架上。将所有AG用不到的线缆全部拆除以后,反复测试,单通现象消失。

篇5:DSP语音信号处理

语音信号处理是研究数字信号处理技术和语音信号进行处理的一门学科,是一门新型的学科,是在多门学科基础上发展起来的综合性技术,它涉及到数字信号处理、模式识别、语言学。语音信号处理是研究用数字信号处理技术对语音信号处理的一门学科。处理的目的是要得到一些语音参数以便高效的传输或存储;或者是通过处理的某种运算以达到某种用途的要求。语音信号处理又是一门边缘学科。如上所诉,它是“语言语音学”与“数字信号处理”两个学科相结合的产物。

语音信号处理属于信息科学的一个重要分支,大规模集成技术的高度发展和计算机技术的飞速前进,推动了这一技术的发展。在数字音频技术和多媒体技术迅速发展的今天,传统的磁带语音录放系统因体积大、使用不便、放音不清晰而受到了巨大挑战。本次课程设计提出的体积小巧,功耗低的数字化语音存储与回放系统,可以有效的解决传统的语音录放系统在电子与信息处理的使用中受到的限制。

本文提出了语音信号处理课程建设的实验环节中的一些考虑,作为专业课程的学习,实验内容不能仅仅停留在验证性实验上,还应增加实验延伸的设计要求,是学生加深对理论分析认识的同时,强调培养学生的实际动手能力和知识综合运用能力。从而提高语音信号的教学和实验的质量。实验内容采用MATLAB编程实现,不仅易于语音信号处理的实现,更易引导学生完成实验延伸的设计。

第一章 绪论

1.1选题背景

在我们的现实生活中从磁带、录像带到CD、VCD、DVD;从黑白电视机、彩色电视机、高清晰度电视机到具有数字信号处理功能的电视机;从留声机、录音机到语音信箱;现在正出在模拟信息到数字信息的变革之中,传统的磁带语音录放系统因其体积大,使用不便,在电子与信息处理的使用中受到许多限制。

虽然,目前广播电视系统尚未实现真正的数字化,相信在不久的将来,真正的数字电视、数字收音机、数字收录机将进入家庭。所以,研究音频信号的数字化存储、处理和回放系统有着很重要的现实意义。

通过设计语音信号实验箱可以对语音信号实现各种形式的变换,因此学会对语音信号的处理,也可自行研究将此语音处理技术应用到现实生活中。

1.2课题意义

语音信号处理的一门比较实用的电子工程的专业课程,语音是人类获取信息的重要来源和利用信息的重要手段,通过语言相互传递信息是人类最重要的基本功能之一,语音是人类特有的功能,它是创造和记载几千年来人类文明史的根本手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。

语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域刚也涉及面很广的交叉学科。

第二章 课程设计要求及系统原理

2.1 课程设计基本要求

(1)学会MATLAB的使用,掌握MATLAB的程序设计方法;

(2)掌握在windows环境下语音信号的采集方法;

(3)掌握数字信号处理的基本概念,基本理论和基本方法;

(4)掌握MATLAB设计方法;

(5)学会用MATLAB对信号进行分析和处理。

2.2 系统基本原理

语音采集原理是,人耳能听到的声音是一种范围为20Hz—20kHz,而一般语音频率最高为3.4kHz。语音的采集是指语音声波信号经麦克风和高频放大器转换成有一定幅度的模拟量电信号,然后再转换成数字量的全过程。

本次设计的基本原理是对语音的录音和放音进行数字化控制。其中,关键技术在于:为了增加语音存储时间,提高存储器的利用率,采用了非失真压缩算法对语音信号进行压缩后再存储,而在回放时再进行解压缩;同时,对输入语音信号进行数字滤波以抑制杂音和干扰,从而确保了语音回放的可靠质量。

通过设计一个GUI实验箱,并添加相应的控制控件,添加一个声音文件,通过MATLAB编程,使其通过各种按钮实现语音信号处理的各种功能,最后做成一个完整的语音信号处理实验箱。

第三章 设计方案论证

3.1 设计理论依据

3.1.1采样定理:

在进行模拟/数字信号的转换过程中,当采样频率fs.max大于信号中最高频率fmax的2倍时,则采样之后的数字信号完整的保留了原始信号中的信号,一般实际应用中保证采样频率为信号最高频率的5—10倍;采样定理又称奈奎斯特定理。

3.1.2采样频率:

采样频率是指计算机每秒钟采集多少个声音样本,是描述声音文件的音质、音调、衡量声卡、声音文件的质量标准。采样频率越高,即采样的间隔时间越短,则在单位时间内计算机得到的声音样本数据就越多,对声音波形的表示也就越精确,采样频率与声音频率之间有一定的关系,根据奈奎斯特理论,只有采样频率高于声音信号最高频率的2倍的时候,才能把数字信号表示的声音还原成为原来的声音,这就是说采样频率是衡量声卡采集、记录和还原声音文件的质量标准。

3.1.3采样位数与采样频率

采样位数即采样值或取样值,用来衡量声音波动变化的参数,是指声卡在采集和播放声音文件时候使用数字声音信号的二进制为数。采样频率是指录音设备在一秒钟内对声音信号的采样次数,采样频率越高声音的还原就越真实越自然。

采样位数和采样频率对于音频接口来说是最为重要的两个基本指标,也是选择音频接口的两个重要标准。无论采样频率如何,理论上来说采样的位数决定了音频数据最大的力度范围。每增加一个采样位数相当于力度范围增加了6dB。采样位数越多则捕捉到的信号越精确。对于采样率来说你可以想象它类似于一个照相机。显然采样率越高,计算机提取的声音越多,对于原始的还原也越加精确。

第四章 图形用户界面设计

4.1 图形用户界面概念

图形用户界面或图形用户接口是指采用图形方式显示的计算机操作环境由用户接口。与早期计算机使用的命令行界面相比,图形界面对于用户来说更为简便易用。

GUI是MATLAB提供的图形用户界面开发环境,提供了一系列用于创建图形用户界面的工具,从而简化界面布局和编程工作。

4.2用户界面设计

4.2.1 GUI设计模板

在MATLAB主窗口中,选择File菜单中的New菜单项,再选择其中的GUI命令,就会显示图形用户界面的设计模板。

MATLAB为GUI设计一共准备了四个模板,分别是Blank GUI、GUI with Uicontrols、GUI with Axes and Menu、Modal Question Dialog。

当用户选择不同的模板时,在GUI设计模板界面的右边就会显示出与该模板对应的GUI图形。

4.2.2 GUI设计窗口

在GUI设计模板中选中一个模板,然后单击OK按钮,就会显示GUI设计窗口,选择不同的GUI设计模式时,在GUI设计窗口中显示的结果是不一样的。

GUI设计窗口由菜单栏、工具栏、空间工具栏以及图形对象设计区等部分组成。GUI设计窗口的菜单栏有File、Edit、View、Layout、Tools和Help六个菜单项,使用其中的命令可以完成图形用户界面的设计操作。

4.2.3 GUI设计窗口的基本操作

(1)前面板的设计:在GUI设计窗口创建图形对象后,通过双击该对象,就会显示该对象的属性编辑器。如下图所示。例如,创建一个Push Button对象,并设计该对象的属性值。

图4-1 按钮属性编辑器

通过以上的按钮属性编辑器可以根据个人情况对按钮的名称、颜色、大小等方面的属性进行修改,使按钮在视觉上变的更加完美。

(2)按钮功能的实现:在GUI设计窗口创建按钮后,通过右键单击按钮,选择View callbacks下的callback对相应的按钮进行编程,使按钮实现相应的功能,如下图所示对按钮的响应功能进行设置。

图4-2 按钮功能编辑器

进入到按钮程序编辑窗口,通过编程即可实现按钮的相应功能,如下图:

图4-3 按钮的编程实现界面

通过对各个按钮控件的修改,和对m文件程序的添加就完成对GUI窗口的设计,最后得到的图形化操作界面如下图所示:

图4-4 图形化操作界面

4.2.4 语音的录入与打开

在MATLAB中,[y,fa,bits]=wavread(‘Blip’,[N1 N2]);用于读取语音,7

采样值放在向y中,fs表示采样频率,bits表示采样位数。[N1 N2]表示读取从N1点到N2点的值。

Suond(x,fs,bits);用于对声音的回放,向量y则就代表了一个信号也就是说可以像处理一个信号表达式一样处理这个声音信号。

第五章 课程设计的软件实现

5.1 部分函数语法格式

读wav文件: x=wavread(‘filename’)数组a及b中元素相乘: a.*b 创建图形窗口命令: figure 绘图函数: plot(x)坐标轴: axis([xmin xmax ymin ymax])坐标轴注解: xlabel(‘„’)ylabel(‘„’)图例注解: legend(‘„’)一阶高通滤波器: y=filter([1-0.09375],1,x)分帧函数: f=enframe(x,len,inc)x为输入语音信号,len指定了帧长,inc指定帧移,函数返回为nXlen的一个矩阵,每一行都是一帧数据。

5.2语音信号处理的相关函数

5.2.1语音信号的短时谱:

周期性声门波可表示为:

(5-1)其中,g[n]是声门波的单周期的波形,p[n]是间隔为P的周期采样序列。当u[n]通过线性非时变声道,且该声道的单位冲击响应为h[n]时,声道输出为:

(5-2)为了观察一段语音,需要降生到输出乘以一个一时刻τ 为中心的窗函数 w[n,τ] ,即得到:

(5-3)

这段语音信号的频域表达式为:

(5-4)

即语音信号的谱包络为

语谱图就是现实时变频谱幅度特征的图形表达式为:

(5-5)

将语音信号短时谱程序写入到MATLAB中得到单色语谱图的波形如下:

图5-1 语音信号单色语谱图

5.2.2 自相关方法估计语音信号的声道参数:

由均方预测误差最小的得到正则方程:

(5-6)

其中,(5-7)

在最佳解时的误差为

(5-8)

在自相关法中式5-6,式5-8变为

(5-9)

(5-10)由式5-9和式5-10可列出方程组式5-11

(5-11)

解方程组式5-9求出线性预测系数,通过误差式5-11可求出增益G

(5-12)

加窗后信号频谱图如下:

图5-2 加窗后信号频谱图

通过以上的方法,改变参数分别求得4极点模型频率响应和6极点模型频率响应,6极点波形如下图所示:

图5-3 六极点波形图

最后通过以上方法用一个函数分别实现以上三个功能,三个波形显示在一个界面,通过观察图形,查看它们之间的分别。三者比较所得到的波形如下:

图5-4 三者比较波形图

5.2.3 基音周期检测

数据为浊音语音信号speech1_10k(10000样点/秒)用25ms的汉明窗对语音信号speech1_10k进行加窗处理,并画出所得到的加窗信号的自相关函数,再用根据中心消波法及三电平中心消波法原理改进程序,最后对比中方法基音检测的效果并分析结果。

实验原理及方法

(1)自相关检测原理:对于离散的数字语音信号序列x(n),如果周期N,则自相关函数也是同周期的周期函数。即:x(n)=x(n+N)。清音信号没有周期性,他的自相关函数也没有周期。浊音新海具有准周期性。自相关基音检测正是利用这一性质对语音信号进行基音检测的。

(2)中心消波法检测原理:中心消波处理是使用如下图所示的中心消波函数进行处理的:

图5-5 中心消波检测图

(3)三电平消波法原理:为了减少自相关计算中的乘法运算,可以把上述中心消波以后的信号y(n)的自相关用两个信号的互相关代替,其中一个信号是y(n)另一个信号是对y(n)进行三电平量化产生的结果。且这个信号有三种可能的取值,因而这里的互相关计算只需要做加减法,而这个互相关序列的周期性与y(n)的自相关序列是近似相同的。

三电平法对语音信号处理得到的波形如下:

图5-6 三电平法波形图

中心消波法得到的波形如下图:

图5-7 中心消波法波形图

5.3 GUI实验箱操作界面设计

通过对各个控件的编程和对参数的设计,最后得到的GUI实验箱操作界

面如下图所示,通过界面上的各个按钮即可实现相应的功能。

图5-8 GUI实验箱操作界面

第六章 心得体会

通过本次课程设计完成了对语音信号的读取与打开,与课题的要求十分相符;初略的完成了界面的设计,但也存在相当的不足,达到了打开语音文件,显示已定波形。语音信号处理时语音学与数字信号处理技术相结合的交叉学科,将语音当做一种特殊的信号,即一种“复杂向量”来看待。也就是说,体现了数字信号处理技术。

本次课程设计时希望将数字信号处理技术应用与某一实际领域,这里就是指对语音的处理。作为存储与计算机中的语音信号,其本身就是离散化了的向量,我们只需要将这些离散的量提取出来美酒可以对其进行处理了。

本次课设,用到了处理数字信号的强有力工具MATLAB,通过MATLAB李的几个命令函数的调用,很轻易的在实际化语音与数字信号的理论之间搭了一座桥。

最后,还利用了MATLAB的另一强大功能——GUI界面设计。设计出了一个建议的用户应用界面,可以让人实现界面操作。

通过本次课程设计让我更加了解了语音信号处理在现实中的强大的应用空间,同时查阅了很多相关的资料,应用MTALAB软件来完成,熟练掌握了MATLAB软件,本次课程设计要求用GUI设计模块,查阅了很多资料,更加深刻的陆奥了了这方面知识。

本次课程设计,我明白了理论的学习需要在实践中才能得到巩固。在课程设计中,只有动手慢慢研究,才能真正了解MATLAB软件平台中可以直接设计数字滤波器的各个函数的调用,对设计GUI实验箱的所有函数的运用有了比较好的认识。

通过这个课程设计,我学到了很多MATLAB和语音信号的知识,提高了自己在语音信号设计方面的知识能力,动手能力和思维能力都得到了一定的提升,希望自己以后可以更多的继续学习这一门课程设计方面的知识。

附 录

1.源程序代码:

参考文献

[1] 刘庆华 陈紫强《基于MATLAB和DSP的语音信号处理课程的建设》 电气电子教学学报 2006 10(3):124-128 [2] 张力 《MATLAB在语音信号处理辅助教学中的应用》 电气电子教学学报 2005 27卷2期:96-99 [3] 邓立新 杨震《信息技术融入“语音信号处理”课程的教学实践》电气电子教学学报 2005 27卷5期:13-16 [4] 胡航,《语音信号处理》 哈尔滨工业大学出版社 2005年2月,第二版:135-137 [5] 张平,《MATLAB基础与应用》 北京航空航天大学出版社 2007,第二版:85-92 [6] 谢德芳 《数字信号处理》 北京科学出版社 2005,第一版

[7] 张雄伟 《现代语音处理技术及应用》 机械工业出版社 2006,第二版 [8] 吴家安 《语音编码技术及应用》 机械工业出版社 2006 第一版 [9] 刘幺和 宋庭新 《语音识别与控制应用技术》 科学出版社 2008 第二版

[10] 李昌立 吴善培 《数字语音编码实用教程》 人民邮电出版社 2004 第一版

[11] 姚天仁 《数字语音处理》 华中科技大学出版社 1992 第二版 [12] 朱敏雄 《计算机语音技术(修订版)》 北京航空航天大学出版社 2002 第一版

篇6:语音信号处理及加密课程总结

本学期,我选修了《语音信号处理及加密》这门课。在本门课程的学习中,我系统地学习了现代语音编码技术的基本概念和基本知识,如什么是语音编码、对语音编码的要求、现代语音编码技术的作用和意义、现代语音编码系统的构成、分类以及主要性能指标等等,使我对现代语音编码有了初步的概要的了解。最近的二十几年来,随着数字通信、计算机、信号处理、微电子等相关技术的发展和广泛应用,语音编码技术发展非常迅速,取得了一系列突破性的成果,极大地促进了数字通信的发展和普及,是现代通信以及信息技术的一个亮点。所谓的现代语音编码技术,主要就是指最近二十几年发展起来并得到广泛应用的语音编码技术。

一、为什么要学习语音编码技术?

由于PCM的编码速率过高,不适应通信和信息技术发展的需要,为了压缩编码速率,减少传输占用的带宽,人们一直在致力于研究开发新的语音编码技术。这种强烈的客观需求是推动语音编码技术发展的巨大动力。另一方面,最近二十几年来,随着计算机、微电子、信号处理等相关技术的迅速发展和广泛应用,尤其是随着数字信号处理算法和器件(DSP芯片)的飞速发展和应用,为中、低速率语音编码器的发展和应用准备了必要条件。正是在这种情况下,从20世纪80年代以来的二十几年间,语音编码技术进入了一个飞速发展的时期。

现代语音编码技术就是指20世纪80年代以来发展起来的新的语音编码技术,这些新的语音编码技术的出现,极大地推动了通信和信息技术的发展,是现代通信发展史中的一个闪光点。

学习和掌握现代语音编码技术的基础知识、分析方法、关键技术和算法十分重要,只有了解和掌握这些已经成熟或基本成熟的方法和技术,才能很好地适应现代通信和信息技术发展的需要,才能研究开发新的方案和算法,提出具有自主知识产权的技术方案。

二、我学到了什么?

语音编码为信源编码,就是对模拟的语音信号进行编码,将模拟信号转化成数字信号,从而降低传输码率并使之可以在数字信道中传输。语音编码的目的是在保持一定得算法复杂程度和通信时延的前提下,占用尽可能少的通信容量,传送尽肯能高质量的语音。

语音编码按照传统的分类方法通常分为三类:波形编码、参数编码和混合编码。(一)波形编码

波形编码是将时间域或频率域或变换域信号直接编码为数字信号,力求使重建语音波形保持原始语音信号的波形形状。波形编码具有语音质量好、抗噪声性能强等优点。其缺点是所需用的编码速率高,一般在64~16Kb/s之间。波形编码是应用最早、人们最熟悉的语音编码技术。波形编码通常包括时域波形编码、频域波形编码和变换域波形编码三种类型。在课程学习中,我对这三种编码技术有了初步的了解。1)时域波形编码

课程中介绍了几种常用的时域波形编码,即脉冲编码调制(PCM)、增量调制(DM或∆M)、差分脉冲调制(DPCM)和自适应差分脉冲调制(ADPCM)。PCM是应用最早和最广泛的语音编码技术,在很长一段时间内,它一直在语音编码中占据统治地位,对于通信的数字化起到过极为重要的推动作用。近年来语音编码技术取得一系列突破性进展,出现了许多崭新的编码算法和技术,已经动摇了PCM的统治地位,但在通信和信息系统中,PCM的应用依然相当普遍。其工作原理是:在译码端,输入模拟信号经过取样、量化和编码,实现模/数转换,变换成为数字信号;到了译码端,再将接收到的数字信号通过译码、低通平滑滤波实现数/模转换,恢复为模拟信号。

DPCM是对相邻样值之间的差值进行编码,而不是对取样值本身进行编码,这样就能够降低编码速率。由于它是对预测误差信号进行编码,而预测误差信号的能量比输入信号的能量小得多,因此量化限幅电平也可以小得多。这样,在量化电平数不变的条件下,量化器的量化间隔就比输入信号的量化间隔小得多,使得量化噪声减少。而在保持信噪比不变的情况下,DPCM就可以通过减少量化比特数,降低编码速率。

ADPCM是采用自适应量化及高阶自适应预测技术的DPCM。自适应线性预测以帧为单位进行,根据本帧语音波形的时间相关性确定预测系数,使得预测误差信号的方差最小。

DM是DPCM的一种特殊形式。当系统的取样品率大于Nyquist频率许多倍时,相邻取样值之间的相关性很强,差分信号的幅度值会在一个很小的范围内变化,于是就可以用正负两个固定的电平来表示差分信号。因此,在DM中仅用1bit即可对差分信号进行量化,也就是只需指示出极性即可。2)子带编码

子带编码是一种应用比较广泛的语音编码技术,也是一种典型的频域波形编码技术。它利用带通滤波器(BPF)组首先将输入信号分割成若干个不同的小的频带(称为子带),通过等效于单边带调幅的调制过程,将各子带搬移到零频率附近,形成低通信号后,再以Nyquist速率对各子带输出取样,并对这些取样值分别进行通常的数字编码。在接收端,将各子带编码信号进行译码,并重新调制回原始位置,再将所有子带输出相加,恢复出原始信号。把语音信号分成若干子带进行编码主要有三个优点。首先,如果对不同的子带合理的分配比特数,就可能分别控制各子带的量化电平数目以及相应的重建信号的量化误差方差值,使误码率更精确地与各子带的信源统计特性相匹配。其次,通过调整不同子带的比特分配数值,可以控制总的重建误差频谱形状,使误差谱的形状适应人耳听觉特性,获得更好的主观听音质量。第三,子带编码的另一个优点是各子带内的量化噪声相互独立,被束缚在自己的子带内,这样就能避免输入电平较低的子带信号被其他子带的量化噪声所淹没。这种情况在非子带编码中就会发生,除非专门采用噪声谱形形成等技术来控制。3)变换域编码。

变换域编码又称为变换域波形编码,是语音编码中经常使用的编码方式之一,尤其是在宽频带高音质声频编码中,变换编码应用更为广泛。

变换域编码是将通常在时域描写的语音信号变换到另外一些变换域中描写(这些变换通常采用正交变换),然后再对变换后的信号进行量化和编码。在接收端,首先对通过信道传输的接收信号进行译码,然后进行反变换以恢复出原始输入的语音信号。在文献资料中经常介绍并在实际中获得广泛应用的集中主要正交变换是:K-L变换(K-LT或KLT)、W-H变换(W-HT或WHT)、Haar变换(HT)、斜变换(ST)、离散余弦变换(DCT)和离散傅里叶变换(DFT)。(二)参数编码

参数编码又称为声源编码或声码器,有时又成为分析-综合编码,它是将信源信号在频域或其他变换与提取特征参数,然后对这些特征参数进行编码或传输;在译码端再将收到的数字信号译成特征参数,根据这些特征参数重建语音信号。参数编码是通过对语音信号特征参数的提取和编码,力求使重建语音信号具有尽可能高的可懂度,即保持原语音信号的语意,但重建语音信号的波形语言语音信号波形却相差甚远。参数编码的有点是可实现低速率语音编码,其编码速率可低至2.4kb/s以下。其缺点是语音质量差,自然度较低,即使是熟人一般也定不出来讲话的人是谁。此外,参数编码的坚韧性也不够好。

参数编码的基础是语音的产生模型。根据这一模型对语音信号进行分析,就可以得到语音的谱包络、基音周期以及清浊音判决等参数。然后就可以对这些参数进行编码和传输。译码中所使用的声道滤波器的形式,与编码器中的谱包络分析器的形式必须相对应,才能够在同样的语音产生模型基础上合成出发送端的语音信号。(三)混合编码

语音混合编码是在采用线性预测编码(LPC)技术的语音参数编码的基础上,通过采用许多改进措施,使用合成分析法而形成的一种新的编码技术,是最近二十几年来在语音编码技术上的一种突破性进展,收到人们的普遍重视,发展迅速,应用广泛。它克服了波形编码和参数编码的缺点,吸收了它们的长处,在16~4kb/s速率上能够得到高质量的合成语音。多脉冲激励线性预测(MPE-LP)编码、规则脉冲激励线性预测(RPE-LP)编码和码激励线性预测(CELP)编码等都属于混合编码。

多脉冲激励线性预测(MPE-LP)编码是一种高音质语音编码算法,是第一个实用、有效的ABS-LPC类型的算法。在MPELPC中,不论是清音还是浊音,都用一帧中的有限多个脉冲经过最优化估值后作为激励信号。

规则脉冲激励线性预测(RPE-LP)编码是在MPELPC的基础上进一步改进而得到的。RPE-LTP编码方案的特点是算法简单,语音质量好,MOS分为4.0分。它是利用预测残差、感觉加权滤波器的单位冲击响应、位置脉冲模式等信息通过解线性方程组求得激励脉冲序列的,因此其算法较简单。

码激励线性预测(CELP)编码是目前应用最多的混合编码技术。CELPC采用分帧技术进行编码,帧长一般为20~30ms。CELPC基于合成分析(ABS)法的搜索过程、感觉加权、矢量量化(VQ)和线性预测(LP)技术。它用从码书中搜索出来的最佳码矢量,乘以最佳增益,代替线性预测的残差信号(余量信号)作为激励信号源。CELPC通常将每一语音帧分为2~5个子帧,在每个子帧内搜索最佳的码矢量最为激励信号。

三.学习体会

在现代通信中,随着科学技术的迅速发展,图像、数据等非话音信息在通信信息中所占的比例大大提高,而且这种提高的趋势仍然会继续下去。但是,到目前为止,在大多数通信系统中,传输醉倒的信息仍然是语音信号。在可以预见的未来的通信中,尽管语音信号在通信信息总量中所占的比例会有所下降,但仍然会是传输最多的信息。

篇7:语音信号处理与分析

DSP课程设计报告

号:

0906030430

级:

通信四班

名:

唐溧

同组姓名:

蒋双福,梁嘉杰

指导教师:

徐淑芳

二〇一二 年

四 月

十四 日

目录

《TMS320C54XDSP语音信号处理》..........................................1 DSP课程设计报告......................................................................1 1.课程设计目的...........................................................................3 2.课程设计题目背景描述和要求...................................................3 3.课程设计报告内容....................................................................4 4.总结.........................................................................................9

1.课程设计目的

会使用TI公司的CCS集成开发工具。

熟悉CCS的界面环境,会使用其Simulator仿真功能并能将程序载入到开发板在线调试。

通过CCS和DSP实验箱设计出语音处理程序,掌握DSPC54x芯片的汇编语法和芯片结构,了解串口的使用原理。

通过C程序和汇编的结合,达到语音的采集,转换,处理和输出的目的。调试程序,掌握调试的基本操作。

2.课程设计题目背景描述和要求

2.1 DSP语音处理过程

DSP能实时处理大量讯号、处理速度快且成本低,其高品质的表现结果成为数字信息产品的核心,而现阶段音频讯号透过DSP进行处理的依赖程度也就日益加深。由于人类可接收的声音源是模拟环境,(图一)是说明将输入的模拟讯号转为数字讯号,再将处理过的数字讯号转为模拟讯号过程。

《图一 DSP系统的语音处理方块图 》

2.2 DSP 语音处理的应用

DSP的应用领用相当广泛,在音讯上的工程技术包括回音消除、噪音抑制、语音处理(语音辨识、合成)、VOIP及声音压缩解压;在应用产品上有DVD/CD播放机、音响合成器、数字录音机、电子语音玩具、助听器与网络电话等。其中,音讯处理主要部份又可分为声音的处理及合成、音讯编码及语音辨识。

在音乐播放过程中,数字数据的呈现结果最重要是要防止在模拟储存和运作时所造成的音质损耗。均衡器能将不同频率范围的讯号分别滤出,然后再各别放

大或缩小处理,最后再合成,所以能补偿讯号的频率衰减,使音质回复原音,或者也能补偿输入的不足,使音质达到理想状态。由于人类的听觉系统在低频及高频的接收上灵敏度较差,透过均衡器强化或补足声音的功能,能弥补人们在听觉上的盲点。例如:将频率为100Hz的组成泛音放大,就会让声音中100Hz左右的低频部份听起来震撼一些,若觉得声音的低频部份不够明显,也可以用均衡器加以补足。像目前MP3播放器几乎都有均衡器的功能,使用者可选定或自定不同的播放音场(摇滚、爵士、流行音乐、抒情),充份表现出音乐的个性化。另外,变声器是透过声音处理技术改变原始的音源呈现,此种技术可广泛应用在电话上做安全过滤或者调整播放音调及速度后,达到语音学习的目的,成为高级语言学习机的必备功能。

2.3 课题工作

本课题探讨了DSP在语音处理方面的实现方法,包括语音的有效采集,采集的方法和注意事项。并深入研究了语音识别和变声和特殊效果的实现方法。

2.4 任务分工

梁嘉杰:负责程序编写

溧:负责算法优化

蒋双福:负责资料查找、课程设计进度报告编写

3.课程设计报告内容 3.1 接口电路

C5402 有两个McBsp 多通道缓冲串行口,提供了全双工的通信机制和双缓存的发送寄存器和三缓存的接受寄存器,允许连续传输的数据流传输,数据长度可以为8,12,16,20,24,32,同时还提供了A律和μ律的压缩扩展。

语音的输入是通过自制的两头耳机线从手机输入到DSP的ADC。

3.2 语音采集

实验首先的工作是采集语音信号,由于有效语音的开始时间并不是程序启动的时间,如果在程序已启动就开始采集语音,那么将有相当一段的时间采集的是无效的数据,那么纪录的将是杂音,而设备的存储空间是有限(AIC10EVM.cmd 文

件中定义),开始我们想通过语音幅度的判断由程序自动判别有效采集是否开始。

在程序开始后,先用一段较短的时间重复采集语音信号,并统计他们的平均值,如果他们的平均值大于某个值,就认定有效信号已经开始产生。

将计数控制部分转移到C语言中,这样能够在程序中更加明确,录制内容的长短。

_READAD50将读取一次多通道缓冲串行口的数据。并存储到0x3000。_READAD50: stm 0x3000,ar2 loopa: CALL IfRxRDY1 ldm McBSP1_DRR1,b stl

b,*ar2+ 3.3 语音转存

Cmd文件中定义了app Data 从0x3200 开始,大小为12k。

我们取的长度为0x8000,存储的首地址从0x5000开始,这样能保证数据存储的地址在指定的范围内。

为了获取更合适的数据,可以在正式读取之前插入空周期或者重复多次采样过程。

在0x5000开始的数据空间内,存储了语音的信息。for(k=0;k<0x8000;)

{

READAD50();

px =(int*)(0x3000);

x_ad = *px;

y_da = x_ad;

py =(int*)(0x5000+k);

*py = y_da;

k++;

}

3.4 重复播放

重复播放只需要将存储的语音信息读取出来,过程和读入是相反的。Write程序也是将0x3100的数据输出,所以只要一直更新数据就可以播放出完整的声音。

for(;;)

{

for(k=0;k<0x9000;)

{

px =(int*)(0x5000+k);

x_ad = *px;

y_da = x_ad;

py =(int*)(0x3100);

*py = y_da;

WRITEAD50();

k++;

}

} 3.5 实验改进方向

程序的整个过程都只是简单的数据转存,但却得到了很好的效果,最后的实验确实达到了重复播放的效果,用同样的原理,还可以实现声音倒着播放,以及限定重放次数等效果。

3.6 附录

/*********************************************************************** ** File Name: AIC10EVM.cmd **********************************************************************/ MEMORY { PAGE 0: /* program space */ VECS: origin = 0x0080, length = 0x007f /* 128bytes vector table space */ PROG: origin = 0x0100, length = 0x24ff /* 8K program memory space */ PAGE 1: /* data space */ SCRA: origin = 0x0060, length = 0x001f /* scratch pad mem space */ STCK: origin = 0x2600, length = 0x04ff /* 1K words for stack */ DAT1: origin = 0x2b00, length = 0x04ff /* 256 words for sys data */ DAT2: origin = 0x3200, length = 0x0e00 /* 12K words for appl data */ }

SECTIONS

{.vectors : {} > VECS PAGE 0 /* interrupt vector table */.text : {} > PROG PAGE 0 /* program code */

.data : {} > PROG PAGE 0 /* initialized data */.coeffs : {} > PROG PAGE 0 /* initialized parameters */.stack : {} > STCK PAGE 1 /* software stack section */.variable : {} > DAT1 PAGE 1 /* uninitialized vars for DSP&AIC10 */.bss : {} > DAT2 PAGE 1 /* uninitialized vars for applications */ } /*********************************************************************** ** End of File –– AIC10EVM.cmd ***********************************************************************/

InitC5402.asm 中部分

_READAD50: stm 0x00ff,ar3 stm 0x3000,ar2

loopa: CALL IfRxRDY1 ldm McBSP1_DRR1,b stl

b,*ar2+;

banz loopa,*ar3-

nop nop

ret nop nop

_WRITEAD50: ; stm 0x00ff,ar3 stm 0x3100,ar2 loopb: CALL IfTxRDY1

ldu *ar2+,B and

#0fffeh,b;mask the LSB stlm

B, McBSP1_DXR1;banz loopb,*ar3-nop nop ret nop

nop

wait:

stm 20h,ar3 loop1:

stm 020h,ar4 loop2: banz loop2,*ar4-banz loop1,*ar3-ret

nop nop nop nop

.end

InitC5402();/* initialize C5402 DSP */

OpenMcBSP();

for(i=0;i<4;i++)

{

for(k=0;k<0x8000;)

{

READAD50();

px =(int*)(0x3000);

x_ad = *px;

y_da = x_ad;

py =(int*)(0x5000+k);

*py = y_da;

k++;

}

}

for(;;)

{

for(k=0;k<0x9000;)

{

px =(int*)(0x5000+k);

x_ad = *px;

y_da = x_ad;

py =(int*)(0x3100);

*py = y_da;

WRITEAD50();

k++;

}

}

4.总结

程序的整个过程都只是简单的数据转存,但却得到了很好的效果,最后的实验确实达到了重复播放的效果,用同样的原理,还可以实现声音倒着播放,以及限定重放次数等效果。

参考文献

篇8:语音信号短时分析算法研究与实现

关键词:语音信号,短时分析,MATLAB

0 引言

语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性学科,与心理、生理学、计算机科学、通信与信息科学以及模式识别和人工智能等学科都有着非常密切的关系。

它的研究历史是从1940年前后Dudley的声码器(Vocoder)和Potter等人的可见语音(Visible Speech)开始的。

1952年贝尔(Bell)实验室的Davis等人首次研制成功能识别10个英语数字的实验装置;1956年Olson和Belar等人采用8个带通滤波器组提取频谱参数作为语音的特征,研制成功一台简单的语音打字机。

20世纪60年代前期,由于Faut和Stevens的努力,奠定了语音生成理论的基础。

60年代中期形成的一系列数字信号处理方法和技术。

1970年,单词识别装置开始了使用化阶段。1971年,以美国ARPA(American Research Projects Agency)为主导的“语音理解系统”的研究计划促进了连续语音识别研究技术的兴起。70年代初由板仓(Itakura)提出的动态时间规整(DTW)技术,使语音识别研究在匹配算法方面开辟了新思路。70年代中期线性预测技术(LPC)和隐马尔可夫模型法(HMM)被用于语音信号处理。70年代末,Linda、Buzo、Gray和Markel等人首次解决了矢量量化(VQ)码书生成的方法,并用于语音编码。

本文介绍了语音信号的基础知识,对语音信号“shop”进行了短时分析,并在MATLAB平台上,对其进行仿真。

1 语音信号产生、感知及其模型

1.1 语音信号生成系统

人的发音器官包括肺、气管、喉(包括声带)、咽、鼻和口。语音是从肺部呼出的气流通过在喉头至嘴唇的器官的各种作用而发生的。产生语音的能量来源于正常呼吸时肺部呼出的稳定气流。对发音影响最大的是从喉结至杓状软骨之间的韧带褶,即声带,其长度仅约10-14mm。

声带每开合和闭合一次的时间(即声带的振动周期)就是音调周期或基音周期,它的倒数称为基音频率,基音频率取决于声带的大小、厚薄、松紧程度以及声门上下之间的气压差的效应等,其范围约为60-450Hz,基音频率决定了声音频率的高低。从声门到嘴唇的呼气通道叫做声道,在说话时,声门处气流冲击声带产生振动,然后通过声道响应变成语音。嘴完成声道的气流向外辐射,其形状会影响语音频谱的形状。

1.2 语音信号模型

由前面对发音器官和语音产生机理的分析知,语音生成系统分成3个部分,声带以下的是激励系统,声带到嘴唇是声道系统,嘴唇以外的是辐射系统。

激励模型一般分为浊音激励和清音激励。发浊音时,产生的是间歇的脉冲波,波形类似斜三角形的脉冲,如图1,单个斜三角波波形的频谱如图2。

由图可见,它是一个低通滤波器,其Z变换的全极模型是G(z)=1(/1-g1z-1)(1-g2z-1)。

周期性的斜三角波脉冲可看做加权的单位脉冲串激励上述单个斜三角脉冲的结果。而周期冲激序列及幅值因子可表示成下面的Z变换形式E(z)=AV/(1-z-1)。

因此,整个激励模型表示为U(z)=G(z)E(z)=AV/(1-z-1)·1/(1-g1z-1)(1-g2z-1),即浊音激励源是一个以基音周期为周期的斜三角脉冲串。发清音时,把其看成随机白噪声,一般使用均值为0,方差为1。

2 语音信号的短时分析

语音信号有时变特性,是一个非平稳的随机过程。但在一个短时间范围内其特性基本保持不变。即语音的“短时平稳性”。“短时分析”即对语音信号流采用分段处理。

将其分为一段一段来分析,其中每一段称为一“帧”,由于语音通常在10~30ms之内是保持相对平稳的,因而帧长一般取为10~30ms。

2.1 短时能量及短时平均幅度分析

第n帧语音信号xn(m)短时能量用En表示,其计算式为

反映出语音的能量或语音振幅随时间缓慢变化的规律。

短时平均幅度也是度量语音信号幅度值变化地函数,其定义为

这两种函数的主要用途可以区分浊音段和清音段、声母和韵母的分界等。

2.2 短时过零率分析

短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数,而短时平均过零率表示单位时间(或单位样本)内过零的次数,其计算方法为

浊音时具有较低的过零率,清音时具有较高的过零率。利用短时平均过零率可以从背景噪声中找出语音信号,判断出语音的起点和终点。

2.3 短时相关分析

相关分析有自相关和互相关。短时自相关函数应用于分析语音信号的同步性和周期性。定义语音信号xn(m)的短时自相关函数的计算方法为

首先乘以窗来选择语音段,然后把自相关函数定义式应用于窗选语音段。利用自相关函数的性质

由于短时自相关函数估计基音周期不简单,一般采用修正的短时自相关函数,它是用两个长度不同的窗口,截取两个不等长的序列进行乘积和,两个窗口的长度相差最大的延迟点数K。

这样就能始终保持乘积和的项数不变,即始终为短窗的长度。其定义为

2.4 短时平均幅度差函数

短时平均幅度差函数只需加、减法和取绝对值的运算;与自相关函数的相加与相乘运算相比,运算量大大减小,这尤其在硬件实现语音信号分析时有很大好处,其定义为

2.5 短时傅里叶变换

语音波是一个非平稳工程,不能用适用于周期、瞬变或平稳随机信号的标准傅里叶变换,而用短时傅里叶变换进行频域分析,也叫短时谱,其定义为

短时傅里叶变换是窗选语音信号的标准傅里叶变换,w(n-m)是窗口函数序列,短时傅里叶变换有两个自变量:n和ω,所以它既是关于时间n的离散函数,又是关于角频率ω的连续函数。

与离散傅里叶变换和连续傅里叶变换的关系一样,若令ω=2πk/N,则得离散的短时傅里叶变换,它实际上是在频域的取样,即

当n固定不变时,它们是序列w(n-m)x(m)(-∞<m<∞)的标准傅里叶变换或标准的离散傅里叶变换。

此时与标准傅里叶变换具有相同的性质,而Xn(k)与标准的离散傅里叶变换具有相同的特性。

当ω或k固定时,和Xn(k)看做是时间n的函数。它们是信号序列和窗口函数序列的卷积,此时窗口的作用相当于一个滤波器。

短时傅里叶变换随着ω作周期变化,周期为2π。根据功率谱定义,可以写出短时功率谱与短时傅里叶变换之间的关系,即

3 短时分析算法实现

3.1 短时平均幅度函数、短时能量及短时平均过零率分析

图3是在时域对“shop”发音进行短时分析的流程图,其中shop.wav是录音得到的,并把其拷贝到MATLAB中work文件夹中。得到结果如图4,当发音shop时,明显可以区分清音和浊音的分界,即发sh音时,其短时平均幅度比发p音时要低;还有,浊音比清音的能量要高;从平均过零率的图像可以从背景噪声中找出语音信号shop,判断出语音的起点和终点,即:浊音p音具有较低的过零率,清音sh音具有较高的过零率。

3.2 短时傅里叶变换分析

图5为将“shop”语音信号进行频域分析流程图,得到结果如图6所示,从图中可以看出shop音主要在sh音和p音上。

语谱图中纵轴表示频率,换算成了分贝形式。这里,共振峰呈现为有色的条纹,从图中可以确定语音参数,例如共振峰频率及基频。条纹的起点相当于声门脉冲的起点,条纹之间的距离表示基音周期。条纹越密表示基音频率越高,从图6中可以看出,当发sh音时,条纹相对密集些,尤其是h音,其基音频率达到最大,说明sh音的基音频率比p音的要高些,即浊音比清音的基音频率高。声道的共振峰表示基音脉冲的某些频率成分被加强,这在语谱图上呈现为条纹区更宽更黑,由图可看出s音的共振峰更宽更黑。

4结论

本文详细介绍了短时分析的短时参数,及各个短时参数的作用,并用MATLAB语言对语音信号shop进行短时分析,主要是短时平均幅度、短时平均过零数和短时傅里叶变换,得出了的短时分析的主要用途及优点,及语谱图的作用。

参考文献

[1]刘庆华等.自适应语音抗噪技术的实时实现[J].桂林电子工业学院学报,2001,(3).

[2]蒋海霞等.一种改进的谱相减语音增强方法[J].解放军理工大学学报,2001,(2).

[3]张志涌等.精通MATLAB6.5版.北京:航空航天大学出版社,2003.

上一篇:半年度思想汇报下一篇:竹情杂谈优秀作文