标签：自动语音识别

多模态大模型不够灵活，谷歌DeepMind创新架构Zipper：分开训练再「压缩」

在多模态生成领域，纯解码器模型通过预测下一个 token 来生成各种模态的新序列，如音频、图像或状态-动作序列。这些模型通常通过词汇扩展技术将多模态表征转化为离散 token，然后在预训练或微调阶段进行跨模态对齐。然而，这种方法存在局限性，如无法处理新模态的添加，且缺乏灵活性，因为添加新模态需要重新训练整个模型。为了解决这些问题，Google DeepMind 提出了一种名为“Zipper”的新型多塔解码器架构。Zipper 由多个独立预训练的单模态解码器组成，能在单一模态中预训练，然后通过交叉注意力机制将这些解码器“压缩”在一...

来源：

机器之心公众号【阅读原文】
Tags：Zipper 交叉注意力多模态生成自动语音识别解码器模型

10个月前