标签：Vision-LSTM

原作者带队，LSTM卷土重来之Vision-LSTM出世

在人工智能领域，一种名为Vision-LSTM (ViL) 的新型模型正在挑战现有的Vision Transformer (ViT) 和 Vision-Mamba (Vim) 方法。ViL由ViT的原始创造者Sepp Hochreiter领导的团队开发，它采用扩展长短期记忆(xLSTM)架构，克服了LSTM的传统限制，同时保持了线性复杂性，适用于高分辨率图像任务。与ViT不同，ViL使用交替的mLSTM块处理图像补丁序列，奇数块从上到下，偶数块从下到上，避免了Transformer的二次计算复杂性。 ViL在ImageNet-1K分类任务上的表现优于优化过的ViT模型，尤其是在公平的比较条件下。此外，ViL在语义分割...

来源：

机器之心【阅读原文】
Tags：Transformer Vision-LSTM ViT xLSTM 计算复杂性

10个月前