通用语言模型领先,通用视觉模型起步较晚
语言模型因包含大量序列信息而能进行更深层次的推理,相比之下,视觉模型面临更多元、复杂的输入,以及对物体时空连续性的高要求,导致其发展相对滞后。传统的学习方法在数据量和经济性方面也不尽合理,至今尚未形成统一的算法来解决计算机对空间信息的理解。
Meta AI 推出“Segment Anything Model” (SAM)
2023年,Meta AI 发布了首个“Segment Anything Model” (SAM),该模型通过交互方式对任意物体进行分割,无需特定类别标注,展现了对空间信息的强大处理能力。这项工作荣获ICCV 2023最佳论文荣誉提名,加州大学伯克利分校人工智能实验室的肖特特博士对此给予了高度评价,认为SAM突破了传统限制,提升了模型的空间理解能力,开启了计算机视觉的新纪元。
空间智能在具身智能中的应用
新时代的视觉智能不再局限于特定任务,而是向空间智能发展,如机器人、自动驾驶、无人机等设备具备类似人类的视觉感知能力,能够更好地与环境互动。肖特特博士认为,未来5-10年内,计算机视觉将致力于解决真实世界的问题,使AI具备人类般的物理空间感知能力。
PromptAI 的创立与发展
肖特特博士在2023年离开Meta,创立了PromptAI,旨在打造通用视觉智能平台,赋予机器类人的视觉感知能力。公司得到了UC Berkeley教授Pieter Abbeel和Trevor Darrell的支持,团队成员年轻且充满活力,专注于算法架构、产品运营和工程管理。团队坚持不断追问“What’s next?”的精神,寻找解决问题的新方法。
从CV1.0到CV2.0的转变
CV1.0时代,视觉模型主要用于解决特定任务,经济性和通用性较差。2012年AlexNet的出现标志着深度学习在图像识别上的重大突破,但各任务间缺乏互通性。CV2.0则追求通用任务的解决,具备人的常识能力,能够处理开放世界中的多样化问题。2021年OpenAI的CLIP和2023年Meta AI的SAM是这一转型的关键里程碑,它们分别在语言监督学习和通用物体分割方面取得了显著进展。
未来十年的挑战与机遇
未来5-10年,计算机视觉将致力于解决真实世界的问题,提升AI的视频理解能力,使其具备对时间和空间的全面感知。这不仅需要技术上的突破,还需要跨学科的合作,尤其是与心理学、神经科学等领域的结合。空间智能的发展将使AI在更多领域发挥重要作用,如机器人、自动驾驶等。