标签:压缩记忆

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

谷歌近期推出了一项创新技术,名为Infini-attention,极大地扩展了Transformer模型处理长上下文的能力。通过引入压缩记忆,该机制使得1B规模的模型能够处理相当于10部小说的100万token,同时在Passkey检索任务中表现出色。8B模型在500K长度的书籍摘要任务中刷新了最新最优结果。Infini-attention实现了114倍的信息压缩比,允许模型在有限的计算资源下处理无限长度的输入。这种新机制通过固定参数量的压缩记忆来存储和重用上下文信息,降低了内存占用和计算成本。与Transformer-XL相比,Infini-attention能保存更长的上下文,...