speech-recognition

    0热度

    1回答

    我正在使用this link来构建语音识别器。运行后,我可以看到,在200个历元后,训练标签错误率从1.023下降到0.085,但验证标签错误率仅从1.347下降到0.843。稍后,验证标签错误率不会再降低。 任何人都可以建议网络结构的任何变化或超参数的变化,以提高验证标签错误率吗?

    0热度

    1回答

    我想添加一些关键字到我的应用程序,所以API可以更有效地识别说出的话。例如,I m having trouble recognizing the some Italian words that starts with E,(例如,每个我)。或用德语(呃)。 这里是我的代码: public void recognize (int sampleRate) { if (mApi == null

    0热度

    1回答

    目前我尝试对我的UWP应用程序实现语音识别功能,到目前为止,我创建了一个连续的听写功能来识别用户的语音,但我希望它只是识别单词或阶段那在语法文件中如何为它创建和添加语法? 这是我连续识别码: protected async override void OnNavigatedTo(NavigationEventArgs e) { CoreDispatcher dispatcher = C

    0热度

    1回答

    我正在使用Windows.Speech API 我想要做的是让系统识别短语的一部分,而不是寻找整个事情。 例如,如果我加载字符串:“你好吗”,它要求用户准确地说,你好吗。最终,我希望Windows.Speech也能认识到这样的事情:“嘿,今天好吗?” 这是我目前有: //This is used for Building the recognizer engine. Choices comman

    1热度

    1回答

    我目前试图提取的目标值对齐到波形图表。 提取的目标值是确定发音单词是否是(是,否,沉默)的音素类。 我一直在试图正确地与波形对准目标的值,但目标类关系的偏离在某种程度上结束了,并在那里上的波形它被放置。 例子: 该图显示了句“是否否否否是”说出了波形。 类标签是如下 沉默:0 是:1 无:2 前四个0有意义(用红色标出),因为没有能量在波形看出因此它必须是沉默。但是第五个0(用绿色标记)没有意义。

    -1热度

    1回答

    该程序不完整,但是正在进行中。 import speech_recognition as sr import subprocess as sp import time, os r = sr.Recognizer() print("Voice Recognition Software\n\n***************************************************

    0热度

    1回答

    我在网页中使用了SpeechRecognition API。我想在用户说话时展示一个可视化。例如,我希望能够显示一些像these的酒吧。当我查看该示例中显示的代码时,似乎需要使用AudioContext API。我的挑战是我看不到如何将SpeechRecognition API连接到AudioContext API。有没有办法做到这一点? 我知道这是实验技术。我只是假设我可以使用麦克风作为音频上下

    0热度

    1回答

    我想线程一个speech_recognition函数在后台连续运行,并检查音频函数,看看有什么文字说话,并采取相应的行动,我试着线程2功能运行平行但语音侦察功能一遍又一遍地被调用,我从来没有使用线程,并在YouTube上跟随一个教程来线程我的功能,我得到,我可以犯了一个非常愚蠢的错误,所以我请求谁回答这个问题在他们的答案和我的错误中有点详细。谢谢。 编辑 所以我删除其造成这个错误使得整个程序冗余我

    -1热度

    1回答

    我正在撰写关于语音识别的论文,以便从视频本身生成字幕。这个概念是我打算制作一个视频播放器,并将语音识别集成到其中。因此,如果我运行系统并播放视频,直到视频文件结束,系统将生成该视频文件的另一个副本,但是这次,字幕已经包含或集成在该视频文件中。这个概念可能吗?如果是这样,你能告诉我我该怎么做,或者告诉我什么是最好的SR API或者一些什么东西?我熟悉java btw。

    0热度

    1回答

    基本上,我希望我的应用能够语音激活 如果用户要求我的应用打开,那么应该打开 如果用户说了必须是输入文本框 如果用户说要点击一个按钮,必须完成 如果用户想要读取语音,那么它应该读出它。 基本上,我想有时候如果可能读取用户命令的应用程序,并为我的用户群最好 没有太多的可用文档有,,,所以我想提出的问题在这里