是的,我知道语音识别相当复杂(作为轻描淡写)。我正在寻找的是一种区分也许 20-30短语的方法。能够分开单词(离散语音很好)会很好,但不是必需的。该软件将取决于用户(即供我使用)。我不是在寻找现有的软件,而是为了自己去做这件事的好方法。我已经研究了各种现有的方法,它似乎将声音分解为音素,而常见的方法对于我的需求有点过分。简单的语音识别方法
对于某些情况下,我只是想用一些简单的语音命令来控制我的电脑的某些方面。我知道Windows已经有语音识别软件,但我想自己作为一个学习练习去做这个。命令将很简单,如“打开Google”或“静音”。我想到的(不知道这是否是一个好主意)是有些命令会复合。所以“静音”只是“静音”。而“打开”命令可以单独识别,然后有后缀(Google,Photoshop等)。与另一个网络/模型/任何认可。但我不确定以这种方式寻找前缀/分词符会产生比不必处理更多个别命令更好的结果。
我一直在研究sensptrons,hopfield网络(虽然它们有点过时于我所理解的)和HMM,而当我理解这些背后的想法(我之前实施了ANN)时,我没有真的知道哪一个最适合这个任务。我假设线性矢量量化模型也是合适的,但我无法真正找到很多文献来达到这个目的。任何指导/资源将不胜感激。