37项SOTA!全模态预训练范式MiCo:理解任何模态并学习通用表示

港中文和中科院的研究团队推出了全新的全模态预训练模型——MiCo,旨在理解和学习通用表示,支持10种模态及25种跨模态任务。MiCo克服了传统模型在多模态理解上的局限,如图文预训练导致的错位和偏见问题。研究者受到多媒体学习理论的启发,将模态分为“知识模态”和“接口模态”,设计了双分支架构,通过创新的生成推理方法对齐不同模态。

MiCo采用多模态上下文强化不同模态间的关联,构建跨越模态的上下文关系,实现更全面的理解。实验结果显示,MiCo在多个单模态感知、跨模态检索、问答和多模态大模型基准上取得37项SOTA性能。

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...