利用Sora模型和生物力学原理,体操视频成为AI视频生成中最严苛的物理规律考验

昨天,Sora正式上线,众多用户纷纷进行了测试。虽然产品的完成度相当高,但模型的质量确实有些不尽如人意。不过,今天的重点并不是讨论Sora模型本身,而是在昨天测试过程中,我看到的一段令人惊讶的体操视频

在视频的前5秒,一切看起来都还算正常。然而,当角色开始执行体操动作时,整个画面突然变得异常诡异,仿佛进入了某种“鬼畜”模式。这一幕不仅让我目瞪口呆,也引发了我对AI视频生成技术的深入思考。

在过去的一年里,我一直在研究AI视频生成技术,发现体操似乎始终是这一领域的“噩梦”。无论是Sora、Luma,还是可灵、Runway等模型,在生成体操视频时都会出现各种问题。有些问题相对温和,因为动作幅度较小;而有些则会严重到让运动员在空中扭曲变形。

体操运动可以被视为AI视频生成技术的终极挑战。早在几年前,人们还在用“威尔斯吃面”来衡量AI视频的质量,但实际上,体操才是真正的“试金石”。五个月前,DiT视频模型刚刚发布时,一段由Luma生成的体操视频在社交媒体上引起了轰动。视频中,运动员的四肢在空中扭曲变形,吸引了近百万网友的关注,并引发了包括LeCun在内的AI专家们的激烈讨论。争论的核心问题是:AI是否真正理解物理规律

如今,经过五个月的发展,这个问题已经基本有了答案:AI确实不理解物理规律。那么,为什么AI在生成跑步、走路等简单动作时表现良好,但在处理复杂动作如体操时却屡屡失败呢?原因其实很简单,但背后的技术难题却相当复杂。

首先,体操运动的难度极高。以一个标准的后空翻加转体720度为例,整个动作虽然只有短短两秒钟,但其中包含了多个对AI来说极为困难的挑战。首先是物理难点。体操运动要求在极短的时间内爆发足够的力量起跳,然后在空中完成复杂的旋转,最终稳稳落地。这一过程中涉及重力、惯性、角动量守恒等多个物理定律。任何一个微小的偏差,都可能导致落地不稳。现实中的体操运动员需要经过多年的训练,才能将这些动作刻入肌肉记忆。而AI在短时间内学会这些规律,几乎是不可能的。

其次,生物力学难点也是关键因素之一。人体结构极其复杂,包含206块骨头和超过600块肌肉。每个骨骼和肌肉都有其独特的运动轨迹和协作方式。对于人类来说,这种协作是与生俱来的本能,但对于AI来说,理解和模拟这种复杂的生物力学系统是一项巨大的挑战。例如,AI在生成动作时常常会出现肘关节反向弯曲、膝盖过度旋转等问题,甚至会出现“只转身不转头”的情况。这些问题的根本原因在于AI并不真正理解人体的构造限制,也不懂得肌肉群之间的协同关系。

最后,美学难点同样不容忽视。体操不仅是体育竞技,更是一门艺术。动作的优美程度、身体的线条感、整体的韵律美,都是体操比赛中的重要评分标准。一个动作即使技术上完成得很好,但如果缺乏美感,也会被扣分。这对AI来说,无疑是一个巨大的挑战。

综上所述,这三重难度叠加在一起,使得AI在生成体操视频时面临巨大的障碍。有人认为问题出在训练数据不足或数据集模糊处理上,但更深层次的原因在于:AI目前仍然停留在“完美模仿”的阶段。就像一只鹦鹉再怎么模仿人类说话,它也不会理解自己所说的。AI生成视频的过程实际上是一种基于概率的预测,根据已有的画面推测下一帧的。但这与体操的实际要求相去甚远。

一些前沿的研究者尝试通过引入物理引擎模拟或在损失函数中加入物理规律约束来解决这些问题,但这些方法仍处于探索阶段,距离实现“世界模拟器”还有很长的路要走。正如图灵测试通过人类对话来检验AI的智能水平,体操视频生成技术也在考验AI对现实世界的理解深度。这不仅要求AI能够“完美模仿”,更需要它理解背后的物理规律、生物力学原理和美学标准。这种理解远比我们想象的要深刻得多,这也验证了Pedro Domingos教授的观点:通往通用人工智能(AGI)的道路可能比我们想象的要遥远得多。尽管这条道路漫长而充满挑战,但终点一定值得期待。

本文来源: ​数字生命卡兹克公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...