0

我参与了音乐信息检索项目。因为我需要将歌曲分成几个部分/片段。我无法确定摘录大小/长度。在我遇到的报纸中,我意识到他们已经拍摄了20到30秒长的片段。即使在GTZAN数据集中,摘录的长度也是30秒。该数据集在世界各地的研究项目中广泛用于体裁分类和那些分类任务。确定用于特征提取的音乐文件中的摘录大小

我的问题是,

  1. 将有30秒长摘录代表整首歌曲?
  2. 这些摘录的原因是30秒长的原因是什么?为什么不是60秒或者为什么不是10秒?
  3. 从一首歌曲的所有30秒摘录中挑选一首30秒长的摘录,背后的逻辑是什么?

回答

2

GTZAN专门用于流派分类,它是有道理的,你不需要这个任务的每首歌的整个长度。如果你打开收音机,你通常可以在几秒钟内知道流派(除非它是一个前卫流派组合),而最流行的流派有高度重复的元素(结构:合唱团/诗歌,乐器),所以通常需要30秒确保歌词和合唱都被捕获以代表每首歌曲的风格元素(因为这些通常是决定流派的相关部分而不是介绍/首歌)。而选择节目而不是整个节目的原因只是编辑重复节目,并保持数据集尽可能小。冗余通常不是你真正需要/想要的。因此,10秒不会捕获所有“块”(合唱/诗节),60秒将捕捉它们不止一次(再次,这只适用于非渐进式结构的流派)。

+0

但如何确定哪些摘录要考虑?从哪里开始? – vigamage

+0

主要是手动标注。或者通过启发式方法如动态的变化和可能牵连从诗歌到合唱等变化的乐器等等。音乐分析可以提取多种因素,尽管它不是微不足道的。 – runDOSrun