说话人识别技术——语音特征参数提取及组合

2022-09-12

如今, 说话人识别技术已逐渐开始进入了实际应用的阶段, 比如, 已应用于自动提款机, 就是AT&T应用了说话人识别技术研制出了智慧卡 (smart card) 。欧洲电信联盟在电信与金融结合领域应用声纹识别技术, 于1 9 9 8年完成了C A V E (C a l l e r V e r i f i c a t i o n i n B a n k i n g a n d Telecommunication) 计划, 并于同年又启动了PICASSO (Pioneering Call Authentication for Secure Service Operation) 计划, 在电信网上完成了说话人识别。同时, 为了实现电子交易的自助化, Motorola和Visa等公司成立了V-commerce联盟, 其中此项目的重要组成部分就是语音识别, 即通过声音确定人的身份。[1]另外说话人识别技术还在其他的一些商用系统有广泛应用, 比如:I T T公司的S p e a k e r K e y、K e y w a r e公司的Voice Guardian、T-NETIX公司的Speak EZ等, 都是利用该技术的先行者。

可靠性一词源于1957年AGREE的学术报告, 它在说话人识别技术应用中具有丰富的涵义。具体到技术运行的可靠性, 通常称为支持可靠性[1]。支持可靠性通过固有可靠性和使用可靠性两方面来表现, 这两方面涵盖了技术研究和投入使用两方面的全过程。固有可靠性是指技术内在的可靠性, 它在技术的研发过程中得以确立。技术的仿真、结构的设计、工艺的科学性以及检验方法决定了固有可靠性, 而使用可靠性则与技术的实现环境和实现方法密切相关, 它更多的取决于技术的操作方法等众多外界因素, 另外产品的研发者的素质对使用可靠性也会产生很大的影响。[2]

1 我国说话人识别技术研究现状

在我国, 由于汉语在发音和结构上的独特性, 语音信号的特征参数和行为规范比较复杂而多变, 国外的说话人识别技术无法直接应用, 这给中国的说话人识别技术带来了很大的困难和挑战。但是近几年来, 国内外众多科研机构、高校实验室以及高科技公司都对汉语的说话人识别技术投入了很大的精力, 国内外一些重点实验室、研究所以及一些公司等都通过自身的努力和互相间的合作, 对说话人识别技术的研究做出了很大的贡献。

2 语音特征参数提取及组合

2.1 线性预测倒谱系数提取的实现

本文中所做实验中语音特征参数选用线性预测倒谱系数 (LPCC) 、美尔倒谱系数 (M FCC) 。

实验中需要先取取线性预测系数 (LPC) , 在LPC的参数求出的条件下再进行LPCC计算, 这是因为由于不能直接提取到线性预测倒谱系数。这一过程的实现可采用MATLAB软件语音处理工具箱中的lpc函数进行提取, 它的实现语句是:

这里x为一帧语音, p为计算LPC参数的阶数。MATLAB语音处理工具箱中也提供了计算实复倒谱系数的函数cceps, 如果不考虑计算量, 可以用下面的函数计算一帧语音信号x的LPCC系数:

该程序中首先计算x的LPC系数, 由于函数cceps不是基于递推公式的, 因此要保留所有阶的LPC系数, 即a的长度与序列x的长度相同。当然, 这种方法在一个实际的语音系统中是不能采纳的, 因为计算量太大。因此, 采用迭代算法计算LPCC参数的程序如下[3]:

此段代码中, 假设LPC系数的阶数为14, LPCC系数的阶数为16, 前10阶LPCC系数通过10阶LPC迭代计算, 后2阶LPCC则是通过外推得到的。

2.2 美尔倒谱系数提取的实现

在MATLAB语音处理工具箱中, 计算MFCC的函数为melcepst, 其中调用了计算滤波器系数的melbankm函数, melbankm的语法为:

其中, m为滤波器个数, n为语音帧长度, fs为采样频率。例如, 设计一个滤波器组, 包含24个滤波器, 语音信号的帧长度为256, 信号采样频率为8000Hz, 所用的命令为:

利用函数melcepst可以直接计算语音信号s的MFCC参数

这一命令默认地以256点为帧长计算12阶的MFCC参数。如果s比较长, 将会按照128点的间隔将s分为若干帧, 再分别计算。由于本系统要获取16阶的MFCC系数, 且语音的帧长为256点, 帧移128点, 因此不能直接采melcepst函数。修改后的计算MFCC的函数如下:

2.3 语音参数的特征组合

图1为本文所采用的组合方式, 将LPCC与MFCC两个特征组合为一个特征Com。具体特征组合方法如下:

其中, p为MFCC的维数, q为LPCC的维数。

通过仿真得出的组合特征参数的图如图1所示。

组合特征参数图中, 横坐标取MFCC和LPCC各20帧, 纵坐标为所对应参数值的数值。语音参数中不同的特征是基于不同的模型, 本文中LPCC是基于声道模型, MFCC则是基于人的听觉模型, 不同类型的特征向量表征了人的不同特性, 通过特征组合采用多种向量组合有利于从不同的角度体现说话人个性。

单独使用某一参数只能反映某一方面的特性, MFCC反映的是说话人语音的听觉频率非线性特性, LPCC反映的是说话人声道生理结构的差异, 使用组合特征参数LPCC弥补了MFCC声道不能描述声道的特征, 语音识别中利用组合特征参数能较好的反映说话人的个性特征, 能够提高说话人识别率。

3 结语

本论文主要目的是对语音特征参数的组合进行研究, 通过参数的特征组合从不同的角度来反映说话人的个性特征, 能够大大提高说话人识别系统的识别率。本文首先对说话人识别的基本知识及研究历程做了介绍, 其中涉及到了说话人识别常用的特征参数以及利用特征参数进行说话人识别存在的技术难点。其次对语音信号的基本处理进行阐述, 说话人识别归根到底就是对说话人语音的识别, 所以对语音信号的处理是一项很重要的工作, 本文所用的特征参数 (MFCC及LPCC) 的特性及提取过程进行了详细的解释。

摘要:本论文重点对语音特征参数的组合进行了研究, 通过参数的特征组合从不同的角度来反映说话人的个性特征, 能够大大提高说话人识别系统的识别率。对其中的特征参数 (MFCC及LPCC) 的特性及提取过程进行了详细的解释和仿真。

关键词:说话人识别技术,线性预测倒谱系数,语音参数

参考文献

[1] 史绍强.基于多级小波神经网络的模糊说话人识别研究[D].长沙理工大学学位论文, 长沙:长沙理工大学, 2004.

[2] 岳喜才, 叶大田.文本无关的说话人识别:综述[J].模式识别与人工智能, 2001, 14 (2) :194~198.

上一篇:我国地方政府绩效评估研究——以民族地区自治地方政府绩效评估为例下一篇:完善事业单位编制实名制管理强化机构编制监督检查机制