原作者带队，LSTM卷土重来之Vision-LSTM出世

每日AI快讯1年前 (2024)发布 AI部落小助手

在人工智能领域，一种名为Vision-LSTM (ViL) 的新型模型正在挑战现有的Vision Transformer (ViT) 和 Vision-Mamba (Vim) 方法。ViL由ViT的原始创造者Sepp Hochreiter领导的团队开发，它采用扩展长短期记忆(xLSTM)架构，克服了LSTM的传统限制，同时保持了线性复杂性，适用于高分辨率图像任务。与ViT不同，ViL使用交替的mLSTM块处理图像补丁序列，奇数块从上到下，偶数块从下到上，避免了Transformer的二次计算复杂性。

ViL在ImageNet-1K分类任务上的表现优于优化过的ViT模型，尤其是在公平的比较条件下。此外，ViL在语义分割和医学成像等需要高分辨率图像的任务中具有优势，因为它能有效降低计算成本。未来，ViL的研究方向包括改进预训练方案、探索更好的超参数设置以及借鉴Transformer的技术。

ViL与ViT的主要区别在于ViT依赖于Transformer的自注意力机制，而ViL则利用xLSTM的线性复杂性和并行化处理能力。ViL的性能优势在于其对序列长度的线性计算和内存复杂度，使得它在处理高分辨率图像时更加高效。

块设计方面，研究者尝试了多种结构，包括单向、双向和四向遍历，最终选择了交替双向块，因为它在保持计算效率的同时提升了性能。对于分类设计，ViL的稳健性体现在不同方法之间的性能差异不大，推荐使用“Bilateral [AVG]”策略，以避免中心偏差并提高模型泛化能力。

本文来源：