2013-02-04 139 views
1

我在思考这个问题早。做现代的算法(特别是那些语音转换成文本)用什么线索来确定哪些同音字,据说(例如到,也还是两个?)语音识别算法如何识别同音字?

他们使用上下文线索?句子的结构?也许还有每个字平常发音的方式略有差别(例如,我通常持有邻声长于)。前两者的组合似乎最合理。

回答

6

他们是否使用上下文线索?

是,ASR系统使用跨词的上下文。例如,如果前面的单词是“正在进行”,则下一个单词可能是“到”而不是“两个”。 ASR系统考虑了概率并选择了最可能的解码变体。

句子结构?

是的,ASR系统使用更先进的语言模型以及根据上下文来预测可能的单词。

也许在每个单词通常发音的方式上有细微的差别(例如,我通常把o声音放在两个比in更长的位置)。

那也是。其实“太”和“到”的发音完全不同。 “to”往往减少为shwa。

如果您对语音识别算法感兴趣,可以阅读ASR书籍或在线课程。详情请参阅

https://sourceforge.net/p/cmusphinx/discussion/speech-recognition/thread/3ea89abf/

+0

能否请你帮我在此http://stackoverflow.com/questions/26134036/how-to-detect-homophone –

+0

你期望什么样的帮助? –