谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

谷歌近期推出了一项创新技术,名为Infini-attention,极大地扩展了Transformer模型处理长上下文的能力。通过引入压缩记忆,该机制使得1B规模的模型能够处理相当于10部小说的100万token,同时在Passkey检索任务中表现出色。8B模型在500K长度的书籍摘要任务中刷新了最新最优结果。Infini-attention实现了114倍的信息压缩比,允许模型在有限的计算资源下处理无限长度的输入。这种新机制通过固定参数量的压缩记忆来存储和重用上下文信息,降低了内存占用和计算成本。与Transformer-XL相比,Infini-attention能保存更长的上下文,避免丢失历史信息。研究团队通过实验展示了Infini-attention在低内存占用下的高效性能,以及在长序列处理任务中的优势。此外,该研究的作者之一参与了谷歌的Bard项目,专注于模型质量和指令遵循。

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...