2017-01-23 82 views
1

我目前正在尝试实现一个cnn网络,它可以将输入映射到输出。在keras中建立CNN网络?

输入由音频文件构成,输出是特征向量。

由于音频文件的长度不同,总采样数总是不一样,但每个采样的帧长度为25 ms,并且重叠了10 ms。形状(x,2050)

输出是一个特征矢量形状是(x,13)。

我以为cnn的使用在这里看起来很合适,因为每个输入都包含由于重叠而导致的前一个样本的一些信息。

是否有可能在keras设计一个模型,利用这个,所以会计算一个矩阵的每一行的卷积和,并以某种方式使它知道25帧长度和10重叠。

回答

1

是的,请参见本文件的第220行[1]。这是使用卷积在Keras中实现的Wavenet。即使他们已经创建了包装图层,这应该能够让您直观地了解如何对音频样本进行建模。

[1] https://github.com/basveeling/wavenet/blob/master/wavenet.py#L220

+1

感谢您的快速反应..我不知道,如果是属于你的..但是你可以详细阐述了实现一点? –