我已经按照示例应用程序使用以下GitHub存储库从文本生成语音。Speak Rate Microsoft Bing Speech API - 文本到语音
https://github.com/Azure-Samples/Cognitive-Speech-TTS/tree/master/Samples-Http/CSharp
我的应用程序运行良好唯一的问题是讲率或每一个字后打破/暂停。
输入文本:Yü7五六d 2 3e的
以下是样本SSML我使用:
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-IN"><voice xml:lang="en-IN" name="Microsoft Server Speech Text to Speech Voice (en-IN, Ravi, Apollo)">y u 7 f s d 2 3 e</voice></speak>
我希望每一个字母后暂停。正如我使用此音频以音频模式获取验证码文本。
请提出正确的方法。
P.S:我不想通过复制粘贴重复整个代码。 (使用来自GIT的样本)
我甚至在下面的链接的评论中跟着对话,但没有运气。
https://docs.microsoft.com/en-us/azure/cognitive-services/speech/home
你试过“。”每个字/字母后? –
我刚才试过,“。”在演讲中拼写为DOT :( – Pratik