2014-06-20 77 views
2

我正在使用传统过程执行单词识别。 我正在提取MFCC功能。然后我创建一个代码簿以进行矢量量化。之后,我训练离散HMM两个单词:1stWrod,2dWord。语音识别,字典中的单词

到目前为止,我一直在执行这样的分类: 我估计了新的音频段的两个训练模型中具有适当特征提取和量化的概率。我说音频对应的概率最高的类。这给了我很好的结果。

但是任何音频片段都被归类为这些词中的任何一个,有时不是。我不知道怎么说这不对应任何阶级。我不确定我是否可以通过训练其他所有数据的模型来解决这个问题,因为它非常不同,我认为这个模型还不够。

回答

1

一个非常简单的方法将得分归一化。首先,对于每个单词模型(W1W2),您需要计算多个真正测试实例的可能性。然后,您可以使用高斯拟合对这些可能性进行建模,计算每个单词模型的平均值和标准偏差。 最后,当谈到是否对未知单词wj属于W1W2,你就必须规范其得分如下:

score normalization

两个模型W1W2,其中LLj是日志 - j-th字测试实例的可能性。 以下-3中的任何分数表示特定测试词无法通过标准化过程中使用的模型(W1或W2)正确建模。如果两个归一化得分都小于-3,那么测试字不能既不是W1也不是W2,因此是另一个词。

您需要一个正确的每个模型的真正测试字的数量,以便正确估计平均值和标准偏差。那么,一个适当的多少,这取决于你的实际数据。

+0

我做了你告诉我的,但出于任何原因,一些声音给予了,并且不要让我有意思。我正在使用Kevin Murphy Library for MATLAB,但这也发生在MATLAB中的内置函数中。 – jessica

+0

如果对数似然变为-Inf,则意味着您在创建特征向量的过程中遇到了问题。这意味着您当前使用的模型根本不匹配数据。检查原始音频文件是否有问题(编码错误,采样率错误等),并仔细检查如何执行特征提取。 – lCapp