如何开始语音到文本？

我对语音到文本算法很感兴趣，但我不确定从哪里开始研究它们。一堆搜索引导我到this，但它从1996年开始，我相当肯定自那以后有了改进。如何开始语音到文本？

有没有人有这种东西的经验有任何阅读/源代码检查的建议？如果我想进入编写语音识别程序的世界（有时如果您对域没有太多知识，很难知道要搜索什么），或者只是提供关于我应该尝试了解的一般性建议。

编辑：我想做一些跨平台的工作，但目前我会针对linux。

编辑2：感谢csmba的深思熟虑的答复。在这个时候，我主要感兴趣的是能够创建允许自动化的应用程序，或者通过语音执行不同的命令。因此，有限的可识别命令可以串在一起。一个例子是音乐播放器采用诸如“播放Squarepusher专辑Hello Everything”之类的命令，或者允许用户创建语音快捷方式以启动特定应用程序的应用程序启动器。

我意识到这是一个非常巨大的问题，而且我现在还远没有达到解决实现整个识别引擎所需的知识水平，尽管这样做所涉及的技术令我着迷，我喜欢努力工作。很有可能，我最终可能会在这个问题上拿起一两本书，并在空闲时间研究/玩“简单”实现。

来源

2008-08-18 jeremiahd

这是一个巨大的问题，我不知道如何开始......所以让我只是试图让你的权利“条款”，因此您可以优化您的追求：

首先，了解语音识别是一个复杂而复杂的课题，它有许多不同的应用。人们倾向于将这个领域映射到他们头脑中的第一件事上（通常，这就是计算机了解你在IVR系统中所说的话）。因此，首先让distinguise概念引入到主要类别：

人 - 机：应用与认识什么人在说解决，但人知道他在说一台机器和语法是非常有限。例子是

计算机自动化
专业：飞行员自动化例如
IVR（交互式语音应答）系统，如谷歌-411或某些控件（噪音巨大的问题），当您拨打银行和计算机在另一边说：“说‘服务’来获得客户服务”

人对人（自然语音）：这是一个更大，更复杂的问题。在这里，我们也可以把它分解成不同的applciations：

呼叫中心：代理的客户，手机质量之间的对话，压缩
智力：2或以上的个人之间的无线/手机/实时对话

现在，Speech-To-Text不是你应该说的你关心的内容。你关心的是解决一个问题。不同的技术被用来解决不同的问题。请参阅其中一些概述here。总而言之，其他方法是语音转录，LVCSR和直接基础。

另外，您是否有兴趣成为技术背后的PHd？你将需要一个涉及信号处理和大概PHd是一个前沿的硕士等效。在这种情况下，您将为一家开发实际语音引擎的公司工作。像Nuance和IBM这样的公司都是大公司，但也存在菲利普斯和其他初创公司。另一方面，如果你想成为一个实现应用程序的人，你将不会在引擎上工作，而是在构建使用引擎的应用程序。我认为一个很好的比喻就是形成游戏行业：您正在开发图形引擎（如Cry引擎）吗？或者正在开发数百款游戏之一，都使用相同的图形引擎？

不要误解我的意思，在IBM/Nuance世界之外还有很多工作可以帮助您进行搜索。引擎通常非常开放，并且有很多算法需要调整才能显着影响性能。每个业务应用程序都有不同的约束条件和成本/收益函数，因此您可以进行多年的实验来构建基于语音识别的更好应用程序

还有一件事：一般来说，你也希望在你想要的堆栈中有较低的堆栈。