Meta开源『Segment Anything Model 2』：SAM 2实现图像与视频全方位分割技术

Meta发布Segment Anything Model 2 (SAM 2)，引领图像与视频分割技术新纪元

去年四月，Meta推出颠覆性的“分割一切”模型，引起了业界广泛关注。如今，Meta再次引领潮流，推出了Segment Anything Model 2 (SAM 2)。这款全新模型在原有基础上实现了重大突破，能够实现实时、可提示的对象分割，适用于静态图像和动态视频内容。SAM 2的强大之处在于它可以无缝处理图像和视频，甚至能够分割之前未曾见过的对象和视觉域，极大地拓展了应用场景。

SAM 2的技术革新与卓越性能

SAM 2采用了创新的流式内存设计，能够按顺序高效处理视频帧，特别适合实时应用。相较于前一代模型，SAM 2在图像分割准确率方面实现了显著提升，并在视频分割性能上也超越了现有水平，同时将交互时间缩短至三分之一。这些进步得益于Meta强大的硬件支持和海量数据训练。为了训练SAM 2，Meta还建立了一个包含大量真实世界视频的大规模注释数据库，其规模远超现有最大视频分割数据集。

开放共享与广泛影响

Meta坚持开源精神，SAM 2将遵循Apache 2.0协议开放源代码和模型权重，并通过Amazon SageMaker等平台提供服务。此外，SAM 2已经在Web上提供了演示体验地址，让用户能够亲身体验其强大的分割和跟踪能力。SAM 2的应用场景极为广泛，不仅能用于跟踪对象，还可以辅助科学研究，比如分割显微镜捕获的视频中的移动细胞。未来，SAM 2有望成为AR眼镜等设备的核心组件，帮助识别日常物品并向用户提供有用信息。

SAM 2面临的挑战与未来发展

尽管SAM 2在图像和短视频分割方面表现出色，但在某些复杂场景下仍存在局限性，例如在摄像机视角剧烈变化或长时间遮挡的情况下可能丢失追踪目标。Meta正在不断优化模型，通过增加交互式功能和人工干预来解决这些问题。此外，SAM 2在处理快速移动对象时可能会遗漏一些细节，未来的工作将致力于提高模型的时间稳定性和平滑性。

本文来源：