思想
Visual Semantic Embedding(VSE)是跨模态检索中的常见方法。旨在学习一个嵌入空间,具有相同语义的视觉和文本在空间中距离相近。然而现在的VSE方法使用复杂的方法将多模态的信息聚合为整体特征。例:注意力加权,图神经网络,seq2seq。本文发现了使用简单的池化策略进行特征聚合在跨模态检索任务上可以超越复杂模型的性能。池化策略聚合特征具有简单和有效性,但是如何在不同模态的数据上进行聚合特征,本文提出了generalized pooling operator(GPO)自动学习最佳池化策略。