标签：Transformer

谷歌爆改Transformer，“无限注意力”让1B小模型读完10部小说

谷歌近期推出了一项创新技术，名为Infini-attention，极大地扩展了Transformer模型处理长上下文的能力。通过引入压缩记忆，该机制使得1B规模的模型能够处理相当于10部小说的100万token，同时在Passkey检索任务中表现出色。8B模型在500K长度的书籍摘要任务中刷新了最新最优结果。Infini-attention实现了114倍的信息压缩比，允许模型在有限的计算资源下处理无限长度的输入。这种新机制通过固定参数量的压缩记忆来存储和重用上下文信息，降低了内存占用和计算成本。与Transformer-XL相比，Infini-attention能保存更长的上下文，...

来源：

量子位【阅读原文】
Tags：Transformer 压缩记忆无限注意力谷歌长上下文处理

11个月前

国内公司有望做出Sora吗？这支清华系大模型团队给出了希望

国内公司在视频生成领域已有深厚的技术积累，尤其在2023年底，预测视频生成将迎来爆发。然而，OpenAI在春节期间推出了Sora，能生成长达1分钟的流畅视频，引发业界对国内外AI技术差距的担忧。Sora的核心技术是将视觉数据转化为统一的patch表示，结合Transformer和扩散模型，展现出强大的扩展性。清华团队在2022年9月提出的U-ViT与此相似，采用Transformer架构，提高了训练效率，并在多个数据集上进行了实验。生数科技作为国内领先团队，基于U-ViT架构，开发了多模态模型UniDiffuser，展示出在视觉任务上的优秀性能。尽管Sor...

来源：

机器之心【阅读原文】
Tags：Diffusion模型 OpenAI Sora Transformer 视频生成

1年前 (2024)

8/8/6/3的Mamba论文，最终还是被ICLR 2024拒了，网友：悬着的心终于死了

ICLR 2024 拒绝了备受关注的 Mamba 论文，尽管它曾被誉为 Transformer 的强有力挑战者。Mamba，一种选择性状态空间模型，因其在语言建模上的卓越表现和线性扩展能力而受到热议。然而，审稿人指出论文在评估方法上存在问题。主要问题包括缺乏长序列建模基准 LRA 的结果和对困惑度作为主要评估指标的质疑。尽管两位审稿人给予正面评价，但一位资深专家提出，低困惑度不一定代表实际NLP应用的改进。论文在反驳阶段未能充分解决这些问题，导致被拒。这一事件让人联想到十年前 Word2vec 的首次投稿被 ICLR 拒绝，但后来在 NeurIPS...

来源：

机器之心【阅读原文】
Tags：ICLR Long Range Arena LRA Mamba Transformer

1年前 (2024)

1 23