标签:Transformer

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

谷歌近期推出了一项创新技术,名为Infini-attention,极大地扩展了Transformer模型处理长上下文的能力。通过引入压缩记忆,该机制使得1B规模的模型能够处理相当于10部小说的100万token,同时在Passkey检索任务中表现出色。8B模型在500K长度的书籍摘要任务中刷新了最新最优结果。Infini-attention实现了114倍的信息压缩比,允许模型在有限的计算资源下处理无限长度的输入。这种新机制通过固定参数量的压缩记忆来存储和重用上下文信息,降低了内存占用和计算成本。与Transformer-XL相比,Infini-attention能保存更长的上下文,...

国内公司有望做出Sora吗?这支清华系大模型团队给出了希望

国内公司在视频生成领域已有深厚的技术积累,尤其在2023年底,预测视频生成将迎来爆发。然而,OpenAI在春节期间推出了Sora,能生成长达1分钟的流畅视频,引发业界对国内外AI技术差距的担忧。Sora的核心技术是将视觉数据转化为统一的patch表示,结合Transformer和扩散模型,展现出强大的扩展性。清华团队在2022年9月提出的U-ViT与此相似,采用Transformer架构,提高了训练效率,并在多个数据集上进行了实验。 生数科技作为国内领先团队,基于U-ViT架构,开发了多模态模型UniDiffuser,展示出在视觉任务上的优秀性能。尽管Sor...

8/8/6/3的Mamba论文,最终还是被ICLR 2024拒了,网友:悬着的心终于死了

ICLR 2024 拒绝了备受关注的 Mamba 论文,尽管它曾被誉为 Transformer 的强有力挑战者。Mamba,一种选择性状态空间模型,因其在语言建模上的卓越表现和线性扩展能力而受到热议。然而,审稿人指出论文在评估方法上存在问题。主要问题包括缺乏长序列建模基准 LRA 的结果和对困惑度作为主要评估指标的质疑。尽管两位审稿人给予正面评价,但一位资深专家提出,低困惑度不一定代表实际NLP应用的改进。论文在反驳阶段未能充分解决这些问题,导致被拒。这一事件让人联想到十年前 Word2vec 的首次投稿被 ICLR 拒绝,但后来在 NeurIPS...
123