3

是的,我知道语音识别相当复杂(作为轻描淡写)。我正在寻找的是一种区分也许 20-30短语的方法。能够分开单词(离散语音很好)会很好,但不是必需的。该软件将取决于用户(即供我使用)。我不是在寻找现有的软件,而是为了自己去做这件事的好方法。我已经研究了各种现有的方法,它似乎将声音分解为音素,而常见的方法对于我的需求有点过分。简单的语音识别方法

对于某些情况下,我只是想用一些简单的语音命令来控制我的电脑的某些方面。我知道Windows已经有语音识别软件,但我想自己作为一个学习练习去做这个。命令将很简单,如“打开Goog​​le”或“静音”。我想到的(不知道这是否是一个好主意)是有些命令会复合。所以“静音”只是“静音”。而“打开”命令可以单独识别,然后有后缀(Google,Photoshop等)。与另一个网络/模型/任何认可。但我不确定以这种方式寻找前缀/分词符会产生比不必处理更多个别命令更好的结果。

我一直在研究sensptrons,hopfield网络(虽然它们有点过时于我所理解的)和HMM,而当我理解这些背后的想法(我之前实施了ANN)时,我没有真的知道哪一个最适合这个任务。我假设线性矢量量化模型也是合适的,但我无法真正找到很多文献来达到这个目的。任何指导/资源将不胜感激。

回答

2

前段时间,我读了一篇关于有限词汇系统的白皮书,该系统使用了简单的识别过程。该系统将每个话语分为少量话筒(如果我没有记错的话,总共24个话筒,时间上是6个,量级上是4个),它所做的只是计算每个话筒音频测量的样本数量。有一个模糊逻辑规则库,然后解释每个话语的24个计数,并产生一个解释。

我想(对于某些应用程序)一个简单的匹配过程也可能工作得很好,其中当前话语的24个bin计数与每个存储的原型的简单计数相匹配,并且最少的那个总体差异是赢家。

1

有语音识别一些开源项目:

  1. HTK(隐马尔可夫模型工具包)
  2. 狮身人面像

两个有解码器,培训,语言模型工具包。 Eveything建立一个完整和强大的语音识别器。 Voxforge为开源语音识别工具包提供声学和语言模型。