标签:Vision-LSTM

原作者带队,LSTM卷土重来之Vision-LSTM出世

在人工智能领域,一种名为Vision-LSTM (ViL) 的新型模型正在挑战现有的Vision Transformer (ViT) 和 Vision-Mamba (Vim) 方法。ViL由ViT的原始创造者Sepp Hochreiter领导的团队开发,它采用扩展长短期记忆(xLSTM)架构,克服了LSTM的传统限制,同时保持了线性复杂性,适用于高分辨率图像任务。与ViT不同,ViL使用交替的mLSTM块处理图像补丁序列,奇数块从上到下,偶数块从下到上,避免了Transformer的二次计算复杂性。 ViL在ImageNet-1K分类任务上的表现优于优化过的ViT模型,尤其是在公平的比较条件下。此外,ViL在语义分割...