Python Speech_Recognition Bad Results

我想使用speech_recognition 3.1.2使用Python 3.4，但我一直在麻烦整个时间。Python Speech_Recognition Bad Results

最初尝试使用刚刚的例子WAV识别我得到类型错误时：“STR”不支持缓冲区的接口，所以我通过源梳理，并提出了以下变化：从

def read(self, size = -1): 
     buffer = self.wav_reader.readframes(self.wav_reader.getnframes() if size == -1 else size) 
     if type(buffer) is str: 
      buffer = buffer.encode(encoding="utf-8", errors="strict") 
      print(buffer) 
     if self.wav_reader.getnchannels() != 1: # stereo audio 
      try: 
       buffer = audioop.tomono(buffer, self.wav_reader.getsampwidth(), 1, 1) # convert stereo audio data to mono 
      except Exception as e: 
       print(e) 
     return buffer

：

def read(self, size = -1): 
     buffer = self.wav_reader.readframes(self.wav_reader.getnframes() if size == -1 else size) 
     if self.wav_reader.getnchannels() != 1: # stereo audio 
      buffer = audioop.tomono(buffer, self.wav_reader.getsampwidth(), 1, 1) # convert stereo audio data to mono 
     return buffer

虽然现在不会发生错误，但转录质量却很差。我可以非常准确地运行python -m speech_recognition，所以我不确定发生了什么。我将energy_threshold提高到4000以确保它不是环境噪音问题。我甚至使用了2种不同的识别服务（IBM和Google语音识别）。此外，由于某种原因，最后2个缓冲区是空字符串，然后我必须转换为字节对象