我想在TensowFlow上实现一个通用模块,该模块接收TensorFlow模型列表(此处表示为专家),并从该混合专家中构建,如下图所示: http://www.aclweb.org/anthology/C16-1133TensorFlow上的专家混合
所以该模型得到,其被馈送到不同的专家以及对选通网络的输入x
。最终输出对应于ensemble output
,它由来自不同专家的输出的总和乘以来自门控网络的相应门控功能gm
给出。所有的专家网络都是同步训练的。
该模块适用于批量培训很重要。我正在寻找已经实施的东西,发现这个https://github.com/AmazaspShumik/Mixture-Models,虽然它不在TensorFlow上。
所以现在我正在寻找关于构建这个模块的最佳方法的指针和建议,即关于某些已经实现的TF层或包装器,它们将特别适合于此应用。