在人工智能领域,一种名为Vision-LSTM (ViL) 的新型模型正在挑战现有的Vision Transformer (ViT) 和 Vision-Mamba (Vim) 方法。ViL由ViT的原始创造者Sepp Hochreiter领导的团队开发,它采用扩展长短期记忆(xLSTM)架构,克服了LSTM的传统限制,同时保持了线性复杂性,适用于高分辨率图像任务。与ViT不同,ViL使用交替的mLSTM块处理图像补丁序列,奇数块从上到下,偶数块从下到上,避免了Transformer的二次计算复杂性。
ViL在ImageNet-1K分类任务上的表现优于优化过的ViT模型,尤其是在公平的比较条件下。此外,ViL在语义分割和医学成像等需要高分辨率图像的任务中具有优势,因为它能有效降低计算成本。未来,ViL的研究方向包括改进预训练方案、探索更好的超参数设置以及借鉴Transformer的技术。
ViL与ViT的主要区别在于ViT依赖于Transformer的自注意力机制,而ViL则利用xLSTM的线性复杂性和并行化处理能力。ViL的性能优势在于其对序列长度的线性计算和内存复杂度,使得它在处理高分辨率图像时更加高效。
块设计方面,研究者尝试了多种结构,包括单向、双向和四向遍历,最终选择了交替双向块,因为它在保持计算效率的同时提升了性能。对于分类设计,ViL的稳健性体现在不同方法之间的性能差异不大,推荐使用“Bilateral [AVG]”策略,以避免中心偏差并提高模型泛化能力。
本文来源: 机器之心【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...