多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」

多模态生成领域,纯解码器模型通过预测下一个 token 来生成各种模态的新序列,如音频、图像或状态-动作序列。这些模型通常通过词汇扩展技术将多模态表征转化为离散 token,然后在预训练或微调阶段进行跨模态对齐。然而,这种方法存在局限性,如无法处理新模态的添加,且缺乏灵活性,因为添加新模态需要重新训练整个模型。为了解决这些问题,Google DeepMind 提出了一种名为“Zipper”的新型多塔解码器架构。Zipper 由多个独立预训练的单模态解码器组成,能在单一模态中预训练,然后通过交叉注意力机制将这些解码器“压缩”在一起,用有限的跨模态数据进行微调,实现多模态生成。Zipper 的优点在于它可以灵活地复用和组合预训练的单模态解码器,无需大量对齐的跨模态数据。研究表明,Zipper 在语音和文本的融合任务上表现出色,如自动语音识别(ASR)和文本到语音(TTS),并且在有限的对齐数据下也能取得良好效果。

本文来源: ​机器之心公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...