Q

言语长度如何影响说话人识别中的神经网络？

2017-01-03 15 views 5 likes

5

我正在学习神经网络，并试图用tensorflow来创建说话人识别系统。我想知道话语长度如何影响神经网络。例如，我有1000个不同的长度相同的录音和1000个不同长度的录音。那么从理论上讲，神经网络如何与这些数据一起工作呢？具有相同长度记录数据库的神经网络会做得更好还是更差？为什么？言语长度如何影响说话人识别中的神经网络？

2017-01-03 Nikas Žalias

A

回答

1

这取决于神经网络的类型。当设计这样的时候，你通常会指定输入神经元的数量，但是不能给它提供任意长度的数据。如果序列较长，则必须裁剪数据或使用滑动窗口。

但是，一些神经网络允许您处理任意输入序列，例如， Recurrent Neural Network。后者似乎是你的问题的一个很好的候选人。 Here是一篇很好的文章，它描述了特定类型的RNN的实现，称为Long Short-Term Memory，它很好地与语音识别一起使用。

2017-01-04 17:16:31

1

我假设你的问题可以改写为神经网络如何处理不同长度的音频？

诀窍是任意大小的信号被转换成一系列固定大小的特征向量。看到我的回答here和here。

2017-01-16 16:41:13

相关问题