标签:Transformer架构
N通过优化视觉Token位置编码间隔,清华大学、香港大学与上海AI Lab在视觉-语言多模态大模型中实现百万Token长上下文理解的新突破!基于Variable Vision Position Embedding (V2PE)技术,该研究显著提升了Transformer架构在处理多模态数据集时的表现,使得机器能够更高效地理解和生成复杂的视觉与文本信息。
清华大学、香港大学和上海AI Lab联合提出V2PE:突破视觉-语言多模态大模型长上下文瓶颈 机器之心的AIxiv专栏一直致力于发布前沿的学术和技术,过去几年已报道了超过2000篇来自全球顶尖高校和企业的研究成果。为了进一步促进学术交流与传播,我们诚邀各位学者和研究人员投稿或联系报道,邮箱为liyazhou@jiqizhixin.com和zhaoyunfeng@jiqizhixin.com。 本文由葛俊岐(清华大学本科生)、陈子熠(清华大学本科生)、林锦涛(香港大学博士生)和祝金国(上海AI Lab青年研究员)共同撰写,通讯作者是朱锡洲,他的研究方向包括视...
Liquid AI:采用自注意力机制与Transformer架构的LFM模型,展示出卓越的数据处理能力,性能超越Meta Llama及微软Phi
IT之家报道,近日,成立于去年的Liquid AI公司发布了一系列全新的基础模型——Liquid Foundation Models(LFM)。这批模型包括LFM-1.3B、LFM-3.1B和LFM-40.3B三个版本。这些模型采用了不同于传统Transformer架构的设计,宣称在多项基准测试中表现优异。 目前,Transformer架构在深度学习和自然语言处理领域占据主导地位。该架构通过自注意力机制捕捉序列中单词之间的关系,例如OpenAI的GPT、Meta的BART和谷歌的T5等模型都基于这一架构。然而,Liquid AI却选择了不同的路径,其基础模型重新设计了架构,受到交通信号处理系统和...
彩讯股份:已将多模态AI技术广泛应用于内部经营管理和外部业务的创作生产中
彩讯股份于2月21日透露,在对AI技术持续关注与研究的基础上,企业已广泛应用多模态AI于内外部业务的运营及内容创新上。借助Transformer结构的大型语言模型进行文本生成,利用图文结合模型实现图生文的应用,并运用扩散模型构建图像生成系统。此外,公司还在深入挖掘多模态AI技术的潜在应用,特别是在数字人领域,通过深度学习驱动的3D建模、动画设计以及语音合成就技术,打造更生动、智慧且具有高度交互性的虚拟形象,将其成功落地到客户服务、教育培训、日常办公等多个场景之中。