我有一堆音频文件,需要根据静音分割每个文件并使用SOX。但是,我意识到某些文件背景非常嘈杂,有些文件不能,因此我不能使用一组参数来遍历所有分割文件。我试图弄清楚如何通过嘈杂的背景将它们分开。以下是我从sox input1.flac -n stat
得到和sox input2.flac -n stat
音频统计使用sox的说明
Samples read: 18207744
Length (seconds): 568.992000
Scaled by: 2147483647.0
Maximum amplitude: 0.999969
Minimum amplitude: -1.000000
Midline amplitude: -0.000015
Mean norm: 0.031888
Mean amplitude: -0.000361
RMS amplitude: 0.053763
Maximum delta: 0.858917
Minimum delta: 0.000000
Mean delta: 0.018609
RMS delta: 0.039249
Rough frequency: 1859
Volume adjustment: 1.000
和
Samples read: 198976896
Length (seconds): 6218.028000
Scaled by: 2147483647.0
Maximum amplitude: 0.999969
Minimum amplitude: -1.000000
Midline amplitude: -0.000015
Mean norm: 0.156168
Mean amplitude: -0.000010
RMS amplitude: 0.211787
Maximum delta: 1.999969
Minimum delta: 0.000000
Mean delta: 0.091605
RMS delta: 0.123462
Rough frequency: 1484
Volume adjustment: 1.000
前者不包含嘈杂的背景和后者一样。由于差距很大,我怀疑我可以使用Max delta
的Sample Mean
。 任何人都可以为我解释这些统计数据的含义,或者至少告诉我我可以在哪里得到它(我试图在官方文档查找,但他们不解释)。非常感谢。