如在几本书描述的,识别的孤立的单词的过程包括以下的:如何在识别过程中改变未识别语音信号的长度?
- 对于一组给定的信号(模板),确定特征向量用于 每个模板 - 矩阵M×N,其中M是特征(MFCC,ZCR,...)的编号 ,并且N是帧数。
- 用一些算法训练模板,如ANN,HMM,GMM,SVM。
- 通过训练模型识别测试信号。
由于语音信号具有不同的持续时间,所以它们的长度通过动态时间规整(DTW)技术进行对齐,因此N对于所有模板都是相同的。它可以在训练期间完成。
我的问题是:如何改变测试信号的长度?我无法使用DTW,因为我不知道它属于哪个类。我是否应该使用“时间延展”算法,保持音调,如果我应该这样做,这将如何影响识别精度?
好吧,我会试试看。我想,不同信号的窗口大小的差异并不重要,因为人类语音在大约20-50毫秒的时间间隔内保留了它的频率特性。 – Zagavarr
与DTW相比,这将是不理想的匹配,因为它假定样本均匀拉伸。 –