这是一个巨大的问题,我不知道如何开始......所以让我只是试图让你的权利“条款”,因此您可以优化您的追求:
首先,了解语音识别是一个复杂而复杂的课题,它有许多不同的应用。人们倾向于将这个领域映射到他们头脑中的第一件事上(通常,这就是计算机了解你在IVR系统中所说的话)。因此,首先让distinguise概念引入到主要类别:
人 - 机:应用与认识什么人在说解决,但人知道他在说一台机器和语法是非常有限。例子是
- 计算机自动化
- 专业:飞行员自动化例如
- IVR(交互式语音应答)系统,如谷歌-411或某些控件(噪音巨大的问题),当您拨打银行和计算机在另一边说:“说‘服务’来获得客户服务”
人对人(自然语音):这是一个更大,更复杂的问题。在这里,我们也可以把它分解成不同的applciations:
- 呼叫中心:代理的客户,手机质量之间的对话,压缩
- 智力:2或以上的个人之间的无线/手机/实时对话
现在,Speech-To-Text不是你应该说的你关心的内容。你关心的是解决一个问题。不同的技术被用来解决不同的问题。请参阅其中一些概述here。总而言之,其他方法是语音转录,LVCSR和直接基础。
另外,您是否有兴趣成为技术背后的PHd?你将需要一个涉及信号处理和大概PHd是一个前沿的硕士等效。在这种情况下,您将为一家开发实际语音引擎的公司工作。像Nuance和IBM这样的公司都是大公司,但也存在菲利普斯和其他初创公司。另一方面,如果你想成为一个实现应用程序的人,你将不会在引擎上工作,而是在构建使用引擎的应用程序。我认为一个很好的比喻就是形成游戏行业: 您正在开发图形引擎(如Cry引擎)吗?或者正在开发数百款游戏之一,都使用相同的图形引擎?
不要误解我的意思,在IBM/Nuance世界之外还有很多工作可以帮助您进行搜索。引擎通常非常开放,并且有很多算法需要调整才能显着影响性能。每个业务应用程序都有不同的约束条件和成本/收益函数,因此您可以进行多年的实验来构建基于语音识别的更好应用程序
还有一件事:一般来说,你也希望在你想要的堆栈中有较低的堆栈。
在这个时间点上,我主要感兴趣的是能够创建允许自动化
好的应用,我们正在融合在这里...然后你在“言语毫无兴趣到文本”。这些流行语将您带到全副本的世界,这是一个您不需要去的地方。你应该专注于一些更人机对话的技术,如语音XML和用于IVR系统的那些(Nuance是这里最大的玩家)
这是一个API!为什么“对于Windows”??????? – 2017-04-25 17:32:03