标签:Transformer

谷歌投资Character.AI:Transformer技术创始人新作,人工智能领域再掀融资热潮,179亿估值展现潜力

Character.AI的核心团队加盟谷歌 近日,知名人工智能初创企业Character.AI的核心团队宣布加盟谷歌。这一举动引起了业内外广泛关注。Character.AI的两位创始人Noam Shazeer(诺姆·沙泽尔)和Daniel De Freitas(丹尼尔·德·弗雷塔斯)都是Transformer的重要贡献者,他们的加盟无疑为谷歌的人工智能研发注入了新的活力。此外,Character.AI的部分研究团队成员也将一同加入谷歌。 尽管Character.AI官方表示大部分团队将继续留在公司,专注于产品的开发和服务用户,但外界普遍认为这是一次典型的“雇佣式收购”,即主要目的是为了...

Sora AI视频生成技术:大厂与创企的商业化探索之路 — Diffusion Model与Transformer的应用

自从Sora在今年2月发布以来,国内的AI视频生成赛道迅速升温,各大企业和初创公司纷纷加入竞争行列。Sora以其出色的视频生成能力和长达一分钟的视频展示,引领了行业潮流。紧随其后,国内企业如字节跳动、快手、商汤、阿里达摩院等相继推出了自己的AI视频生成工具。这些工具不仅吸引了大量用户的关注,还推动了技术的快速迭代。 技术架构与创新 Sora的成功激发了其他公司对Diffusion Model和Transformer架构的深入研究。这两种技术路径各有千秋,而Sora创造性地将两者结合,形成了DiT(Diffusion + Transformer)架构,显...

英伟达投的Sora竞品免费了!网友挤爆服务器,120秒120帧支持垫图

近日,一款名为Dream Machine的视频生成AI引起轰动,因其120秒内可生成120帧的高清晰度视频而备受关注。这款AI工具免费提供给公众试用,导致服务器一度被网友的热情挤爆。Dream Machine采用Transformer架构,能创建物理精确、内容连贯且生动的视频场景。尽管目前使用需排队等待,但其出色的表现赢得了用户们的惊叹,有人甚至感到它对现有视频生成工具Sora构成竞争压力。 用户反馈显示,Dream Machine不仅适用于生成各种动作场景,还能处理二次元风格和动画效果。该模型由初创公司Luma AI开发,团队成员包括前英伟达研究人员...

原作者带队,LSTM卷土重来之Vision-LSTM出世

在人工智能领域,一种名为Vision-LSTM (ViL) 的新型模型正在挑战现有的Vision Transformer (ViT) 和 Vision-Mamba (Vim) 方法。ViL由ViT的原始创造者Sepp Hochreiter领导的团队开发,它采用扩展长短期记忆(xLSTM)架构,克服了LSTM的传统限制,同时保持了线性复杂性,适用于高分辨率图像任务。与ViT不同,ViL使用交替的mLSTM块处理图像补丁序列,奇数块从上到下,偶数块从下到上,避免了Transformer的二次计算复杂性。 ViL在ImageNet-1K分类任务上的表现优于优化过的ViT模型,尤其是在公平的比较条件下。此外,ViL在语义分割...

效率2倍于Transformer!彩云科技推出全新模型架构,高分登机器学习顶会ICML

彩云科技近期发布了一项创新的AI通用模型结构——DCFormer,它通过改进注意力矩阵,使得在相同的训练数据和算力下,计算效率可提高至Transformer的两倍。DCFormer改变了Transformer中的向量矩阵推理路径,允许任意线性组合,提供了更多的组合可能性。据实验,一个69亿参数的DCFormer模型在某些情况下超越了120亿参数的模型。该模型的论文已在arXiv上发布,并将在ICML 2024大会上正式发表,其源代码、权重和训练数据集也已开源。 DCFormer与现有模型如Mamba、RetNet等不同,它可以叠加在Transformer基础上进行改进,无需从头训...

CVPR‘24:与任务无关的多模态数据也能提升Transformer性能|港中文&腾讯

港中文大学的MMLab与腾讯AI Lab合作的研究揭示了一个令人惊讶的发现,即使用与任务无关的多模态数据可以提升Transformer模型的性能。这种跨模态增益现象表明,即使在训练图像分类模型时,加入视频、音频、点云等非直接相关的数据也能显著提高模型在图像识别上的表现。研究团队提出了一种名为多模态通路(Multimodal Pathway)的框架,利用跨模态重参数化技术,让Transformer在处理特定模态数据时能利用其他模态的无关数据进行训练,且不增加推理成本。实验结果显示,这种方法在图像识别、点云处理、视频理解和音频分析等多个...

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

谷歌近期推出了一项创新技术,名为Infini-attention,极大地扩展了Transformer模型处理长上下文的能力。通过引入压缩记忆,该机制使得1B规模的模型能够处理相当于10部小说的100万token,同时在Passkey检索任务中表现出色。8B模型在500K长度的书籍摘要任务中刷新了最新最优结果。Infini-attention实现了114倍的信息压缩比,允许模型在有限的计算资源下处理无限长度的输入。这种新机制通过固定参数量的压缩记忆来存储和重用上下文信息,降低了内存占用和计算成本。与Transformer-XL相比,Infini-attention能保存更长的上下文,...

国内公司有望做出Sora吗?这支清华系大模型团队给出了希望

国内公司在视频生成领域已有深厚的技术积累,尤其在2023年底,预测视频生成将迎来爆发。然而,OpenAI在春节期间推出了Sora,能生成长达1分钟的流畅视频,引发业界对国内外AI技术差距的担忧。Sora的核心技术是将视觉数据转化为统一的patch表示,结合Transformer和扩散模型,展现出强大的扩展性。清华团队在2022年9月提出的U-ViT与此相似,采用Transformer架构,提高了训练效率,并在多个数据集上进行了实验。 生数科技作为国内领先团队,基于U-ViT架构,开发了多模态模型UniDiffuser,展示出在视觉任务上的优秀性能。尽管Sor...

8/8/6/3的Mamba论文,最终还是被ICLR 2024拒了,网友:悬着的心终于死了

ICLR 2024 拒绝了备受关注的 Mamba 论文,尽管它曾被誉为 Transformer 的强有力挑战者。Mamba,一种选择性状态空间模型,因其在语言建模上的卓越表现和线性扩展能力而受到热议。然而,审稿人指出论文在评估方法上存在问题。主要问题包括缺乏长序列建模基准 LRA 的结果和对困惑度作为主要评估指标的质疑。尽管两位审稿人给予正面评价,但一位资深专家提出,低困惑度不一定代表实际NLP应用的改进。论文在反驳阶段未能充分解决这些问题,导致被拒。这一事件让人联想到十年前 Word2vec 的首次投稿被 ICLR 拒绝,但后来在 NeurIPS...
12