基于HMM的语音识别技术

2022-11-24

一、理论假设

将HMM模型应用于语音识别技术的理论假设, 语音声学有很强的不确定性 (易受到各种因素的影响) , 其中所隐含的语义信息是确定的。可以把语义信息作为状态, 而把经过人的发声系统发出的声音, 作为具有随机过程的观察值。

二、HMM模型概述

隐马尔科夫模型是由隐马尔科夫链演变而来的, 在语音识别系统中, 只考虑一阶马尔科夫链, 即当前时刻所处的状态只与上一时刻所处状态有关。HMM的基本思想是通过一串观察值估算出模型参数, 在语音识别训练阶段, 训练的数据越多, 识别结果就会越接近于实际值。

HMM模型由可表示为:

其中π为初始状态, A为状态转移矩阵, B为发射概率矩阵。

HMM模型的三个基本问题:

(一) 概率计算问题

给定模型λ= (A, B, π) 。计算在模型λ下观测序列O出现的概率P (O|λ) 。

解决此问题的方法为前向、后向算法。

(二) 预测问题

已知模型λ= (A, B, π) , 求对给定观察值序列下, 条件概率P (Q|O) 最大的状态序列。解决此问题的方法为维特比算法。

(三) 学习问题

已知观测序列, 估计模型λ= (A, B, π) 参数, 使得在该模型下观测序列概率P (O|λ) 最大。

三、语音识别流程

训练流程

(1) 给出c1, c2, c3三个词的音频库 (Wc1, Wc2, Wc3) , 对音频库的所有样本进行特征提取。 (这里以mfcc为例) , 对每一段音频w先分成若干帧[w1, w2, w3⋯wn], 对每一帧提取mfcc, 获得[mfcc1, mfcc2, mffcc3⋯mfcc_n]。

(2) 对这些mfcc进行聚类处理 (比如k-means) , 获得M个类 (类中心) , 每个类对应一个HMM的可观测层, 同时将所有的mfcc进行分类, 转化为可观测层的状态, 该mfcc归到哪个类就对应哪个可观测状态。 (矢量量化) 对每一段音频w的mfcc串[mfcc1, mfcc2, mffcc3⋯mfcc_n], 就会获得它的可观测序列[o1, o2, o3⋯on]。

(3) 从而获取了词汇c1, c2, c3的所有O序列, 记为Oc1, Oc2, Oc3。

(4) 基于上述的HMM的第三个功能, 以Oc1, Oc2, Oc3作为条件, 分别获得三个HMM, 记为HMMc1, HMMc2, HMMc3。

识别流程:

(1) 将获得的waveform切成等长的frames, 对每个frames提取特征, 使用MFCC算法。

(2) 对提取出的mfcc串使用聚类中心进行分类, 进而转化为观察值序列。

(3) 使用HMM的解决第一个问题的方法, 将观察值序列输入到HMMc1, HMMc2, HMMc3获得三个概率, Pc1, Pc2, Pc3。

(4) 比较Pc1, Pc2, Pc3, 输出对应最大概率的词语。

摘要：语音识别技术作为一种简单快捷的人机交互方式, 在当今社会应用的十分广泛。语音识别技术相比于其他的人工智能技术, 具有快速交互, 学习能力强, 实现成本低的优势, 在各种的需要安全认证和人机交互的情景都可以应用语音识别技术。随着人工智能等技术的发展, 可以想象, 语音识别技术将有十分深远的发展前景。

关键词：语音识别,HMM模型,孤立词