TTT模型引领生成式AI革命：Transformers架构与隐藏状态提升机器学习效率

新一代人工智能的焦点——测试时间训练模型（TTT）正崭露头角，作为对Transformers架构的革新。Transformers，如OpenAI的Sora、Anthropic的Claude和谷歌的Gemini等模型的基础，虽然强大，但在处理大规模数据时面临计算效率低下的挑战。随着硬件需求的飙升，企业和环境可持续性面临压力。TTT模型应运而生，由斯坦福大学、加州大学圣地亚哥分校、伯克利分校和Meta的研究团队共同研发，历时一年半。TTT不仅能处理更多数据，而且计算能耗显著降低。

Transformers的核心是隐藏状态，一种存储处理内容的查找表。然而，这种设计使得模型在检索信息时需遍历整个查找表，效率低下。TTT的创新之处在于，它用内部的机器学习模型替换隐藏状态，形成模型内的模型，避免了数据处理量增加导致的模型膨胀。TTT模型的内部模型大小固定，但性能不减，有望处理从文本到多媒体的海量数据。

尽管如此，TTT目前尚未成为Transformers的直接替代品。研究人员还在探索阶段，仅开发了小型模型。伦敦国王学院的Mike Cook认为TTT是一个有趣的尝试，但是否优于现有架构仍有待观察。他幽默地指出，计算机科学的问题往往通过增加抽象层来解决，而TTT正是在神经网络中嵌入了神经网络。

本文来源：

iFeng科技【阅读原文】

# 每日AI快讯 # Transformers架构 # TTT模型 # 机器学习模型 # 计算效率 # 隐藏状态

文章版权归作者所有，未经允许请勿转载。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

TTT模型引领生成式AI革命：Transformers架构与隐藏状态提升机器学习效率

字节跳动AI新动向预览：文生图技术或将创新长视频产业，豆包大模型引领短剧制作，抢先布局的公司一览（附相关概念股）

人机协同创作新篇章：AI大模型与可灵AI引领的AIGC短剧视频革命 - 快手体验

相关文章

暂无评论

AI最新资讯