2014-06-18 116 views
12

我有大约3000多个同一作者的音频文件。我需要抄录这些讲座,笔者在这里讲述了一个特定的词。在音频文件中搜索特定口语词

所以我需要一个软件解决方案,它会自动找到所有文件的特定单词说。这个词的发音方式可能有所不同,因为这些音频文件已经用了15年。

免费/开源解决方案表示赞赏。

我试过搜索,并了解了狮身人面像。但是我无法将其设置为用于我的项目。任何帮助是极大的赞赏。请

+0

嘿你是否能够实现这一目标?如果有,请分享如何? github回购会很棒! –

回答

12

您可以使用CMUSphinx,这是一款开源语音识别引擎,支持关键字识别功能。

1)将音频信号转换成需要的格式 - 16kHz的16位单声道文件:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav 

2)建立,并http://github.com/cmusphinx

3)安装最新pocketsphinx和sphinxbase下载en-us generic acoustic model

4)运行检测:

pocketsphinx_continuous -infile file.wav -hmm en-us -kws_threshold 1e-40 -keyphrase "what you need to detect" -time yes 

它会打印您检测到的关键字及其时间。为了获得最佳检测精度,您可以调整kws_threshold。

+0

感谢尼古拉的回答。由于这种声学模型是通用的,我如何根据演讲者已录制的音频文件制作声学模型? –

+0

对于关键字识别,您不需要与扬声器相关的模型,它不会显着改进。如果你仍然想适应它,那么有一个声学模型适应教程http://cmusphinx.sourceforge.net/wiki/tutorialadapt –

+0

如果我正在搜索的关键字不在标准的英语字典中,关键字发现仍然有效吗? ? –