合成模型和平均模型有什么区别？

在机器翻译中，序列到序列模型变得非常流行。他们经常使用一些技巧来提高性能，例如集合或平均一组模型。这里的逻辑是错误将会“平均”。合成模型和平均模型有什么区别？

据我所知，平均值模型是简单地取X模型参数的平均值，然后创建一个可用于解码测试数据的单一模型。合奏，然而平均每个模型输出。这要花费更多的资源，因为X模型必须提供输出，而平均模型只能在测试数据上运行一次。

这里的区别究竟是什么？输出如何不同？在我的测试中，两种方法都比基线评分有小幅和类似的改善。这让你想知道为什么人们只要平均就能打扰乐团。然而，在我遇到的所有神经机器翻译论文中，人们都在谈论集合，而不是关于平均。为什么是这样？是否有关于平均的论文（特别是seq2seq和机器翻译相关论文）？

任何帮助，非常感谢！

2017-09-06 RNRug

合奏是一个更通用的术语。套袋和助推是集合方法的例子。

例如，随机森林不仅仅是平均决策树，它使用bagging - 首先随机抽样数据和特征，然后训练树（使用所有数据/特征没有多大意义，因为树会是真的类似）。

2017-09-06 12:55:35

回答