是的,你可以使用语音识别软件,如CMU狮身人面像进行识别的非语音声音。为此,您需要创建自己的声学和语言模型,并定义仅限于您的任务的词典。但为了训练相应的声学模型,您必须有足够的训练数据以及带注释的感兴趣的声音。
总之,步骤的顺序如下:
首先,对于训练准备资源:词典,字典等的此处所描述的方法:http://cmusphinx.sourceforge.net/wiki/tutorialam。但就你而言,你需要重新定义音素集和词典。也就是说,你应该把填充物模型化为真实的单词(所以,不要用++
左右),你不需要定义完整的音素集。有很多可能性,但最简单的可能是为所有语音音素制作单一模型。因此,你的词汇会看起来像:
CLAP CLAP
BARK BARK
WHISTLE WHISTLE
FART FART
SPEECH SPEECH
其次,带标签的准备训练数据:类似VoxForge的东西,但文本注释必须从你的词典中只包含标签。当然,非言语声音也必须正确标记。这里的好问题是从哪里获得足够多的此类数据。但我想这应该是可能的。
有了这些,你可以训练你的模型。与语音识别相比,此任务更简单,例如,您不需要使用三音电话,只需使用单音。
假设任何声音/语音相等的先验概率,最简单的语言模型可以是一个类似环的语法(http://cmusphinx.sourceforge.net/wiki/tutoriallm):
#JSGF V1.0;
/**
* JSGF Grammar for Hello World example
*/
grammar foo;
public <foo> = (CLAP | BARK | WHISTLE | FART | SPEECH)+ ;
这是使用ASR工具包,你的任务很基本的方法。可以通过微调HMM配置,使用统计语言模型和使用细粒音素建模(例如区分元音和辅音而不是单个SPEECH模型,这取决于您的训练数据的性质)来进一步改进。
在语音识别的框架之外,您可以构建一个简单的静态分类器,它将逐帧分析输入数据。对频谱图进行操作的卷积神经网络对于此任务表现相当好。
[我的回答](http://stackoverflow.com/q/8285673/22364)[来自连续麦克风流的非语音,非音乐声音的实时识别](http:// stackoverflow.com/q/8285673)可能是相关的。 – 2011-11-27 12:52:37