在音频文件中搜索特定口语词

我有大约3000多个同一作者的音频文件。我需要抄录这些讲座，笔者在这里讲述了一个特定的词。在音频文件中搜索特定口语词

所以我需要一个软件解决方案，它会自动找到所有文件的特定单词说。这个词的发音方式可能有所不同，因为这些音频文件已经用了15年。

免费/开源解决方案表示赞赏。

我试过搜索，并了解了狮身人面像。但是我无法将其设置为用于我的项目。任何帮助是极大的赞赏。请

2014-06-18 amol_beast

嘿你是否能够实现这一目标？如果有，请分享如何？ github回购会很棒！ –

您可以使用CMUSphinx，这是一款开源语音识别引擎，支持关键字识别功能。

1）将音频信号转换成需要的格式 - 16kHz的16位单声道文件：

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

3）安装最新pocketsphinx和sphinxbase下载en-us generic acoustic model

4）运行检测：

pocketsphinx_continuous -infile file.wav -hmm en-us -kws_threshold 1e-40 -keyphrase "what you need to detect" -time yes

它会打印您检测到的关键字及其时间。为了获得最佳检测精度，您可以调整kws_threshold。

2014-06-18 10:21:05

感谢尼古拉的回答。由于这种声学模型是通用的，我如何根据演讲者已录制的音频文件制作声学模型？ –

对于关键字识别，您不需要与扬声器相关的模型，它不会显着改进。如果你仍然想适应它，那么有一个声学模型适应教程http://cmusphinx.sourceforge.net/wiki/tutorialadapt –

如果我正在搜索的关键字不在标准的英语字典中，关键字发现仍然有效吗？？ –

回答