0

我已经按照示例应用程序使用以下GitHub存储库从文本生成语音。Speak Rate Microsoft Bing Speech API - 文本到语音

https://github.com/Azure-Samples/Cognitive-Speech-TTS/tree/master/Samples-Http/CSharp

我的应用程序运行良好唯一的问题是讲率或每一个字后打破/暂停。

输入文本:Yü7五六d 2 3e的

以下是样本SSML我使用:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-IN"><voice xml:lang="en-IN" name="Microsoft Server Speech Text to Speech Voice (en-IN, Ravi, Apollo)">y u 7 f s d 2 3 e</voice></speak>

我希望每一个字母后暂停。正如我使用此音频以音频模式获取验证码文本。

请提出正确的方法。

P.S:我不想通过复制粘贴重复整个代码。 (使用来自GIT的样本)

我甚至在下面的链接的评论中跟着对话,但没有运气。

https://docs.microsoft.com/en-us/azure/cognitive-services/speech/home

+0

你试过“。”每个字/字母后? –

+0

我刚才试过,“。”在演讲中拼写为DOT :( – Pratik

回答

2

本 - > “Y”。 “U”。 “7”。 “F”。 “S”。 “d”。 “2”。 “3”。 “E”。 < - 适用于bing语音网页测试。 对你来说应该也很好。 这里是SSML:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US"> 
    <voice xml:lang="en-US" name="Microsoft Server Speech Text to Speech Voice (en-US, ZiraRUS)">&quot;y&quot;. &quot;u&quot;. &quot;7&quot;. &quot;f&quot;. &quot;s&quot;. &quot;d&quot;. &quot;2&quot;. &quot;3&quot;. &quot;e&quot;. 
    </voice> 
</speak> 
+0

这解决了这个目的,我也尝试了\ n“换行符”,它的工作原理是一样的,感谢你的帮助。 – Pratik

相关问题