语音识别算法如何识别同音字？

我在思考这个问题早。做现代的算法（特别是那些语音转换成文本）用什么线索来确定哪些同音字，据说（例如到，也还是两个？）语音识别算法如何识别同音字？

他们使用上下文线索？句子的结构？也许还有每个字平常发音的方式略有差别（例如，我通常持有邻声长于到）。前两者的组合似乎最合理。

他们是否使用上下文线索？

是，ASR系统使用跨词的上下文。例如，如果前面的单词是“正在进行”，则下一个单词可能是“到”而不是“两个”。 ASR系统考虑了概率并选择了最可能的解码变体。

句子结构？

是的，ASR系统使用更先进的语言模型以及根据上下文来预测可能的单词。

也许在每个单词通常发音的方式上有细微的差别（例如，我通常把o声音放在两个比in更长的位置）。

那也是。其实“太”和“到”的发音完全不同。 “to”往往减少为shwa。

如果您对语音识别算法感兴趣，可以阅读ASR书籍或在线课程。详情请参阅

2013-02-05 03:37:42

能否请你帮我在此http://stackoverflow.com/questions/26134036/how-to-detect-homophone –

你期望什么样的帮助？ –

回答