2017-01-03 15 views
5

我正在学习神经网络,并试图用tensorflow来创建说话人识别系统。我想知道话语长度如何影响神经网络。例如,我有1000个不同的长度相同的录音和1000个不同长度的录音。那么从理论上讲,神经网络如何与这些数据一起工作呢?具有相同长度记录数据库的神经网络会做得更好还是更差?为什么?言语长度如何影响说话人识别中的神经网络?

回答

1

这取决于神经网络的类型。当设计这样的时候,你通常会指定输入神经元的数量,但是不能给它提供任意长度的数据。如果序列较长,则必须裁剪数据或使用滑动窗口。

但是,一些神经网络允许您处理任意输入序列,例如, Recurrent Neural Network。后者似乎是你的问题的一个很好的候选人。 Here是一篇很好的文章,它描述了特定类型的RNN的实现,称为Long Short-Term Memory,它很好地与语音识别一起使用。

1

我假设你的问题可以改写为神经网络如何处理不同长度的音频?

诀窍是任意大小的信号被转换成一系列固定大小的特征向量。看到我的回答herehere