标签:注意力机制

Transformer注意力机制新发现:从work-depth模型角度看并行计算与深度复杂度优化

整理后文章: 重新审视注意力机制:对数级别的复杂度? 近年来,注意力机制在人工智能领域大放异彩,尤其是在 Transformer 模型中。然而,一篇最新的博客引发了 AI 社区的热烈讨论,提出了一个全新的视角:Transformers 中实现的注意力机制,在计算复杂度上应该被视为对数级别(logarithmic)。这篇博客不仅得到了 Karpathy 的高度评价,还为理解注意力机制提供了一个全新的框架。 Karpathy 曾经这样描述神经网络的计算图:“广度是免费的,深度是昂贵的”。这一观点正是 Transformer 的核心灵感来源。作者提到,早在 Neura...

YOLOv12引入注意力机制:首个融合区域注意力与R-ELAN的实时目标检测框架震撼问世

机器之心学术专栏介绍 机器之心AIxiv专栏专注于发布前沿的学术和技术,过去几年中已报道了超过2000篇来自全球顶尖高校和企业的研究成果,有效促进了学术交流。如果您有优秀的科研成果或技术分享,欢迎通过以下邮箱投稿:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。 YOLOv12:引入注意力机制的实时目标检测器 由纽约州立大学布法罗分校的田运杰、David Doermann以及中国科学院大学的叶齐祥合作完成的研究,提出了一种全新的YOLOv12模型。该模型在保持YOLO系列实时性的同时,成功将注意力机制(Attention Mechani...

Falcon Mamba 7B依托Mamba架构换掉Transformer,以开放式源代码模型成就榜首位置:利用注意力机制实现任意长度的长序列处理

摒弃注意力机制:Falcon Mamba 7B 开源模型强势崛起 近期,阿联酋阿布扎比技术创新研究所(TII)发布了一款名为Falcon Mamba 7B的新模型,这款模型摒弃了传统的Transformer架构及其注意力机制,转而采用了Mamba状态空间语言模型架构,这一转变使其在性能方面全面超越了同规模的开源模型。Falcon Mamba 7B不仅能够在处理长序列时保持高效的计算效率,还能处理任意长度的序列而无需增加内存消耗。 Mamba架构详解:结合RNN与CNN优势 Mamba架构作为一款状态空间模型(SSM),融合了循环神经网络(RNN)和卷积神经网络(CNN)...

自动化所研发脉冲动态计算的毫瓦级超低功耗异步感算一体类脑芯片

在追求高效能与低能耗的智能计算领域,人脑的低功耗特性成为重要的灵感来源。中国科学院自动化研究所的研究团队与时识科技等机构合作,开发出一种名为Speck的类脑神经形态SOC系统,它实现了动态计算并降低了能源消耗。这项研究首次提出“神经形态动态计算”理念,通过设计 Speck 芯片,运用注意力机制实现动态计算,确保在无输入时无功耗,有输入时则按重要性动态调整,使得在视觉场景任务中的功耗降至0.7毫瓦。 Speck是一款异步感算一体的SoC,整合了动态视觉传感器和神经形态芯片,静息功耗仅为0.42毫瓦。其全异步设计消除...