TTT模型引领生成式AI革命:Transformers架构与隐藏状态提升机器学习效率

新一代人工智能的焦点——测试时间训练模型(TTT)正崭露头角,作为对Transformers架构的革新。Transformers,如OpenAI的Sora、Anthropic的Claude和谷歌的Gemini等模型的基础,虽然强大,但在处理大规模数据时面临计算效率低下的挑战。随着硬件需求的飙升,企业和环境可持续性面临压力。TTT模型应运而生,由斯坦福大学、加州大学圣地亚哥分校、伯克利分校和Meta的研究团队共同研发,历时一年半。TTT不仅能处理更多数据,而且计算能耗显著降低。

Transformers的核心是隐藏状态,一种存储处理内容的查找表。然而,这种设计使得模型在检索信息时需遍历整个查找表,效率低下。TTT的创新之处在于,它用内部的机器学习模型替换隐藏状态,形成模型内的模型,避免了数据处理量增加导致的模型膨胀。TTT模型的内部模型大小固定,但性能不减,有望处理从文本到多媒体的海量数据。

尽管如此,TTT目前尚未成为Transformers的直接替代品。研究人员还在探索阶段,仅开发了小型模型。伦敦国王学院的Mike Cook认为TTT是一个有趣的尝试,但是否优于现有架构仍有待观察。他幽默地指出,计算机科学的问题往往通过增加抽象层来解决,而TTT正是在神经网络中嵌入了神经网络。

本文来源: iFeng科技【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...