一、理论假设
将HMM模型应用于语音识别技术的理论假设, 语音声学有很强的不确定性 (易受到各种因素的影响) , 其中所隐含的语义信息是确定的。可以把语义信息作为状态, 而把经过人的发声系统发出的声音, 作为具有随机过程的观察值。
二、HMM模型概述
隐马尔科夫模型是由隐马尔科夫链演变而来的, 在语音识别系统中, 只考虑一阶马尔科夫链, 即当前时刻所处的状态只与上一时刻所处状态有关。HMM的基本思想是通过一串观察值估算出模型参数, 在语音识别训练阶段, 训练的数据越多, 识别结果就会越接近于实际值。
HMM模型由可表示为:
其中π为初始状态, A为状态转移矩阵, B为发射概率矩阵。
HMM模型的三个基本问题:
(一) 概率计算问题
给定模型λ= (A, B, π) 。计算在模型λ下观测序列O出现的概率P (O|λ) 。
解决此问题的方法为前向、后向算法。
(二) 预测问题
已知模型λ= (A, B, π) , 求对给定观察值序列下, 条件概率P (Q|O) 最大的状态序列。解决此问题的方法为维特比算法。
(三) 学习问题
已知观测序列, 估计模型λ= (A, B, π) 参数, 使得在该模型下观测序列概率P (O|λ) 最大。
三、语音识别流程
训练流程
(1) 给出c1, c2, c3三个词的音频库 (Wc1, Wc2, Wc3) , 对音频库的所有样本进行特征提取。 (这里以mfcc为例) , 对每一段音频w先分成若干帧[w1, w2, w3⋯wn], 对每一帧提取mfcc, 获得[mfcc1, mfcc2, mffcc3⋯mfcc_n]。
(2) 对这些mfcc进行聚类处理 (比如k-means) , 获得M个类 (类中心) , 每个类对应一个HMM的可观测层, 同时将所有的mfcc进行分类, 转化为可观测层的状态, 该mfcc归到哪个类就对应哪个可观测状态。 (矢量量化) 对每一段音频w的mfcc串[mfcc1, mfcc2, mffcc3⋯mfcc_n], 就会获得它的可观测序列[o1, o2, o3⋯on]。
(3) 从而获取了词汇c1, c2, c3的所有O序列, 记为Oc1, Oc2, Oc3。
(4) 基于上述的HMM的第三个功能, 以Oc1, Oc2, Oc3作为条件, 分别获得三个HMM, 记为HMMc1, HMMc2, HMMc3。
识别流程:
(1) 将获得的waveform切成等长的frames, 对每个frames提取特征, 使用MFCC算法。
(2) 对提取出的mfcc串使用聚类中心进行分类, 进而转化为观察值序列。
(3) 使用HMM的解决第一个问题的方法, 将观察值序列输入到HMMc1, HMMc2, HMMc3获得三个概率, Pc1, Pc2, Pc3。
(4) 比较Pc1, Pc2, Pc3, 输出对应最大概率的词语。
摘要:语音识别技术作为一种简单快捷的人机交互方式, 在当今社会应用的十分广泛。语音识别技术相比于其他的人工智能技术, 具有快速交互, 学习能力强, 实现成本低的优势, 在各种的需要安全认证和人机交互的情景都可以应用语音识别技术。随着人工智能等技术的发展, 可以想象, 语音识别技术将有十分深远的发展前景。
关键词:语音识别,HMM模型,孤立词
参考文献
[1] 周扬, 孙玲玲, 马德.基于HMM模型的语音识别系统的研究[M].智能处理与应用, 2017.74-76.
[2] 吴大为.基于HMM模型改进算法的语音识别系统[D].哈尔滨:哈尔滨工业大学, 2013.
【基于HMM的语音识别技术】相关文章:
语音识别中基于支持向量机的声学模型研究09-11
语音识别技术综述09-11
说话人识别技术——语音特征参数提取及组合09-12
基于深度学习的人脸识别技术的研究12-13
Office语音识别词典如何删除单词04-20
基于STM32的语音物联网寻物系统10-26
基于Python的人脸识别算法分析01-28
基于结构特征的空间目标识别算法05-09
基于深度学习的图像识别算法研究的综述09-10