2008-08-18 26 views
9

我对语音到文本算法很感兴趣,但我不确定从哪里开始研究它们。一堆搜索引导我到this,但它从1996年开始,我相当肯定自那以后有了改进。如何开始语音到文本?

有没有人有这种东西的经验有任何阅读/源代码检查的建议?如果我想进入编写语音识别程序的世界(有时如果您对域没有太多知识,很难知道要搜索什么),或者只是提供关于我应该尝试了解的一般性建议。

编辑:我想做一些跨平台的工作,但目前我会针对linux。

编辑2:感谢csmba的深思熟虑的答复。在这个时候,我主要感兴趣的是能够创建允许自动化的应用程序,或者通过语音执行不同的命令。因此,有限的可识别命令可以串在一起。一个例子是音乐播放器采用诸如“播放Squarepusher专辑Hello Everything”之类的命令,或者允许用户创建语音快捷方式以启动特定应用程序的应用程序启动器。

我意识到这是一个非常巨大的问题,而且我现在还远没有达到解决实现整个识别引擎所需的知识水平,尽管这样做所涉及的技术令我着迷,我喜欢努力工作。很有可能,我最终可能会在这个问题上拿起一两本书,并在空闲时间研究/玩“简单”实现。

回答

8

这是一个巨大的问题,我不知道如何开始......所以让我只是试图让你的权利“条款”,因此您可以优化您的追求:

首先,了解语音识别是一个复杂而复杂的课题,它有许多不同的应用。人们倾向于将这个领域映射到他们头脑中的第一件事上(通常,这就是计算机了解你在IVR系统中所说的话)。因此,首先让distinguise概念引入到主要类别:

人 - 机:应用与认识什么人在说解决,但人知道他在说一台机器和语法是非常有限。例子是

  • 计算机自动化
  • 专业:飞行员自动化例如
  • IVR(交互式语音应答)系统,如谷歌-411或某些控件(噪音巨大的问题),当您拨打银行和计算机在另一边说:“说‘服务’来获得客户服务”

人对人(自然语音):这是一个更大,更复杂的问题。在这里,我们也可以把它分解成不同的applciations:

  • 呼叫中心:代理的客户,手机质量之间的对话,压缩
  • 智力:2或以上的个人之间的无线/手机/实时对话

现在,Speech-To-Text不是你应该说的你关心的内容。你关心的是解决一个问题。不同的技术被用来解决不同的问题。请参阅其中一些概述here。总而言之,其他方法是语音转录,LVCSR和直接基础。

另外,您是否有兴趣成为技术背后的PHd?你将需要一个涉及信号处理和大概PHd是一个前沿的硕士等效。在这种情况下,您将为一家开发实际语音引擎的公司工作。像Nuance和IBM这样的公司都是大公司,但也存在菲利普斯和其他初创公司。另一方面,如果你想成为一个实现应用程序的人,你将不会在引擎上工作,而是在构建使用引擎的应用程序。我认为一个很好的比喻就是形成游戏行业: 您正在开发图形引擎(如Cry引擎)吗?或者正在开发数百款游戏之一,都使用相同的图形引擎?

不要误解我的意思,在IBM/Nuance世界之外还有很多工作可以帮助您进行搜索。引擎通常非常开放,并且有很多算法需要调整才能显着影响性能。每个业务应用程序都有不同的约束条件和成本/收益函数,因此您可以进行多年的实验来构建基于语音识别的更好应用程序

还有一件事:一般来说,你也希望在你想要的堆栈中有较低的堆栈。

在这个时间点上,我主要感兴趣的是能够创建允许自动化

好的应用,我们正在融合在这里...然后你在“言语毫无兴趣到文本”。这些流行语将您带到全副本的世界,这是一个您不需要去的地方。你应该专注于一些更人机对话的技术,如语音XML和用于IVR系统的那些(Nuance是这里最大的玩家)

0

你定位的是哪个平台?有Microsoft Speech APIs,你可以使用,如果它的Windows。

+0

这是一个API!为什么“对于Windows”??????? – 2017-04-25 17:32:03

3

我肯定会推荐捡起a book或两个,如果你是该领域的新手。我在这个领域没有经验,所以我不能提出建议。如果你还在上大学(或者还有密切的联系),你应该知道你的教授是否可以提出建议。

您链接的调查可能也是一个很好的资源。我确信自1996年以来已经有了进步,但基本面不可能发生根本性的变化。如果调查写得很好,那么阅读它就值得你花时间。