小波消噪在说话人识别系统中的应用

2022-09-12

说话人识别系统对在干净环境下采集的语音信号可以有较高的分辨率, 然而将在安静环境下训练的模型应用于实际有背景噪声的环境中, 说话人识别系统的识别性能就会有明显的下降, 环境噪声已经成为说话人识别技术逐渐走向实用化的主要障碍之一。本文主要讨论了小波变换理论在说话人识别技术消除噪声方面的原理及其实现方法, 并对仿真数据进行了分析。

1 小波消噪

1.1 小波变换的去噪应用

一般说来, 基于小波变换的去噪过程可分为以下三个步骤进行:

(1) 原始信号的小波分解。选择一个适当的小波并确定该小波分解的层次N, 然后对信号S进行N层小波分解。

(2) 小波分解高频系数的阀值量化。从第1层到第N层的每一层高频系数选择一个适当的阀值进行软阀值量化处理。

(3) 一维小波的重构。根据小波分解中第N层的低频系数和经过量化处理后的第1层到第N层的高频系数, 进行一维信号的小波重构。

在实际的应用中, 有用信号的低频部分通常表现为比较平稳的信号, 而噪声信号则通常以高频信号出现, 所以去噪过程可按如下方法进行。

首先对带有噪声的信号进行小波分解, 则噪声部分通常包含在cd1、cd2、cd3中, 而从总体上来说, 它的高频部分影响的是它的小波分解的高频第一层, 即cd1, 低频部分影响的是它的小波分解的最深层及其最低频层, 即ca3。以前的做法是引入以信号能量为判据的浮动阈值作为受到噪声污染的小波系数, 并且随着噪声能量强弱的变化, 阈值也随之上下浮动[1]。将等于或小于阈值的小波系数当作零舍去, 再用阈值以上的数据对信号进行重构即可从中恢复出真实信号f (i) , 这样做可以将大部分的噪声从信号中去掉, 并且减小了重建信号的失真[1]。

1.2 改进的阀值的选择

由上一节可知, 阀值处理是小波去噪法的关键问题, 从某种程度上说, 它将直接影响信号消噪的质量[2]。从小波处理方法上说, 一般分为三种:强制消噪处理、默认阀值处理和给定软 (或硬) 阀值处理。下面通过Matalab实验来说明本文所应用的方法。

从图1我们可以看出, 强制消噪处理后的信号较为光滑, 因为该法把小波分解结构中的高频系数全部变为0, 即把高频部分全部滤掉, 然后再对信号进行重构处理, 虽然此法比较简单, 但是极容易丢失信号的有用成分, 在实际应用中效果不够好;而默认阀值消噪处理和给定阀值消噪处理的消噪效果都不错, 对于后者, 在实际的消噪处理过程中, 阀值往往是通过经验公式获得的, 虽然这种阀值比默认阀值更具有可信度, 但是无疑也增加了操作的难度和计算的时间, 考虑到本文进行的是实时的说话人识别, 为了避免在不同环境下改动阀值的繁琐, 本文采用默认阀值消噪处理方法就很适用了。

2 基于小波消噪的说话人辨认实验

为了测试需要, 本文在将安静实验室中提取的干净语音中加入一定的噪声, 并设置一定的信噪比, 以此来观察识别性能的变化。采用前面提到到阀值处理方法对语音进行小波消噪处理, 并分别进行固定文本和任意文本说话人辨认实验, 所加噪声为一白噪声, 然后将其输入到动态时间规整 (DTW) 和矢量量化 (VQ) 模型进行识别, 根据相关实验我们得出以下结果:

加入了噪声的语音识别性能非常差, 进行小波消噪后, 基于DTW和VQ的说话人辨认性能都有了提高, 其中与文本相关的辨认的识别率提高幅度比较高, 而与文本无关的识别率提高幅度由限;在与文本无关的实验中, 基于DTW的实验识别率提高幅度不及基于V Q的说话人辨认实验, 略低, 主要原因在于基于DTW的识别算法过分依赖于端点检测, 而端点检测的精度会随着语音的音素不同而不同, 特别是加入了噪声后, 就会影响其音素的检测精度, 因此就影响了其识别率。

3 结语

说话人识别系统的性能在噪声环境下的识别性能明显降低, 环境噪声是说话人识别技术走向实用化的一个主要障碍, 如何寻找新的有效的消噪方法是说话人识别研究的热点, 对于自然环境条件下的说话人识别来说也有一定的研究意义。

摘要:说话人识别技术是根据待识别人的语音与预先提取的说话人语音特征是否相匹配来鉴别说话人身份的一种生物认证技术, 具有广泛的应用前景。采用矢量量化 (VQ) 方法, 可以在信息量损失较小的情况下更好地压缩数据量, 从而增高说话人识别系统的识别率。本文研究了说话人识别的相关技术, 提出并设计了一个基于VQ的说话人识别系统, 当用于训练的数据量较小时, 可以得到比较稳定的识别性能。

关键词:说话人识别,特征提取,矢量量化,小波消噪

参考文献

[1] 何英, 何强.Matlab扩展编程[M].北京:清华大学出版社.

[2] 刘明才.小波分析及其应用[M].北京:清华大学出版社.

上一篇:GPS技术在地质勘查中的应用及发展方向浅析下一篇:融媒体时代纸媒记者的转型