有人可以解释i-vector和d-vector之间的区别吗?我所知道的是他们广泛用于说话人/语音识别系统,他们是表达说话人信息的模板,但我不知道主要区别。i-vector和d-vector之间的区别
回答
我不知道如何用简单的语言正确表征d矢量,但我可以帮助一点点。
身份向量或i-vector,是一个特定语音片段的频谱特征,通常是音素的一个音素,很少(据我所知)与整个音素一样大。基本上,这是一个离散谱图,以与时间片的高斯混合同构的形式表达。
A d-矢量从i-矢量序列中提取,并且可以用于可靠地将声音片段与其来源进行匹配 - 例如识别谁说出给定的短语。
I向量是表示帧级别特征的分布模式的特质特征的特征。 I矢量提取本质上是GMM超向量的降维(虽然在计算i向量时不提取GMM超向量)。它用本征语音自适应方案或JFA技术以类似的方式提取,但是每个句子(或输入语音样本)被提取。
另一方面,使用DNN提取d向量。为了提取d向量,需要采用叠加滤波器组特征的DNN模型(类似于ASR中使用的DNN声学模型),并且在输出上生成单热话筒标签(或话者概率)。 D矢量是来自该DNN的最后隐藏层的平均激活。因此,与i矢量框架不同,它没有任何有关特征分布的假设(i矢量框架假定i矢量或潜变量具有高斯分布)。
所以总之,这些是从完全不同的方法或假设中提取的两个不同的特征。我推荐你阅读这些论文:
N.Dehak,P.Kenny,R.Dehak,P.Dumouchel,and P.Ouellet,“Front-end factor analysis for speaker verification”,IEEE Transactions on Audio,Speech ,和语言处理,第一卷。 19,没有。 4,pp。788-798,2011.
E. Variani,X. Lei,E. McDermott,IL Moreno和J. G-Dominguez,“Deep neural networks for small footprint text-dependent speaker verification”,在Proc。 ICASSP,2014,第4080-4084页。
- 1. 之间的〜/和的区别../
- 2. '#','%'和'$'之间的区别
- 3. {!!之间的区别!!}和{{}}
- 4. '+ ='和'= +'之间的区别?
- 5. “。+”和“。+?”之间的区别
- 6. .eq之间的区别。和==
- 7. #。/和#之间的区别。 ./
- 8. !=和!之间的区别==
- 9. “%〜dp0”和“。\”之间的区别?
- 10. | =和^ = css之间的区别
- 11. 之间的区别。和#
- 12. ==和case之间的区别?
- 13. “**/* /”和“** /”之间的区别?
- 14. jQuery - '。'之间的区别和“#”
- 15. “?1”和“?”之间的区别
- 16. `%in%`和`==`之间的区别
- 17. fmod和%之间的区别
- 18. 之间的区别:+和:+
- 19. 类区域和堆之间的区别
- 20. SPFile和PublishingPage类别之间的区别
- 21. 子类和类别之间的区别?
- 22. System.Timers.Timer Enabled = true和.Start()之间的区别Enabled = true和.Start()之间的区别
- 23. isForeground()和onExposed和onObscured之间的区别
- 24. $ .ajax()和$ .get()和$ .load()之间的区别
- 25. 和intent和setcontentview之间的区别
- 26. Java和C#和.NET之间的区别
- 27. NSthread和NStimer和NSNotifcation之间的区别?
- 28. sys.log()和console.log()和console.error()之间的区别?
- 29. 关注与责任之间的区别(即SRP和SoC之间的区别)?
- 30. make中的“$(shell ...)”和“$$(...)”之间的区别