2

有人可以解释i-vector和d-vector之间的区别吗?我所知道的是他们广泛用于说话人/语音识别系统,他们是表达说话人信息的模板,但我不知道主要区别。i-vector和d-vector之间的区别

回答

0

我不知道如何用简单的语言正确表征d矢量,但我可以帮助一点点。

身份向量或i-vector,是一个特定语音片段的频谱特征,通常是音素的一个音素,很少(据我所知)与整个音素一样大。基本上,这是一个离散谱图,以与时间片的高斯混合同构的形式表达。

A d-矢量从i-矢量序列中提取,并且可以用于可靠地将声音片段与其来源进行匹配 - 例如识别谁说出给定的短语。

2

I向量是表示帧级别特征的分布模式的特质特征的特征。 I矢量提取本质上是GMM超向量的降维(虽然在计算i向量时不提取GMM超向量)。它用本征语音自适应方案或JFA技术以类似的方式提取,但是每个句子(或输入语音样本)被提取。

另一方面,使用DNN提取d向量。为了提取d向量,需要采用叠加滤波器组特征的DNN模型(类似于ASR中使用的DNN声学模型),并且在输出上生成单热话筒标签(或话者概率)。 D矢量是来自该DNN的最后隐藏层的平均激活。因此,与i矢量框架不同,它没有任何有关特征分布的假设(i矢量框架假定i矢量或潜变量具有高斯分布)。

所以总之,这些是从完全不同的方法或假设中提取的两个不同的特征。我推荐你阅读这些论文:

N.Dehak,P.Kenny,R.Dehak,P.Dumouchel,and P.Ouellet,“Front-end factor analysis for speaker verification”,IEEE Transactions on Audio,Speech ,和语言处理,第一卷。 19,没有。 4,pp。788-798,2011.

E. Variani,X. Lei,E. McDermott,IL Moreno和J. G-Dominguez,“Deep neural networks for small footprint text-dependent speaker verification”,在Proc。 ICASSP,2014,第4080-4084页。