人工智能视频生成器的新奇基准测试:威尔・史密斯吃意大利面现象
近年来,随着人工智能(AI)视频生成技术的迅猛发展,一个有趣的现象逐渐在行业内流行开来。每当一家公司发布全新的人工智能视频生成器时,总会有人第一时间用它来制作威尔・史密斯吃意大利面的视频。这种现象不仅演变成了一种网络热梗,更成为衡量新型AI视频生成器性能的非官方标准——即能否逼真地呈现史密斯狼吞虎咽吃意大利面的场景。
2024年,这一现象继续发酵。史密斯本人也在去年2月通过Instagram发布了一段模仿视频,亲自参与了这场网络狂欢。事实上,“威尔・史密斯吃意大利面”只是众多奇特“非官方”评测标准中的一个例子。此前,一位16岁的开发者还开发了一款应用程序,让AI控制《我的世界》(Minecraft)游戏,并以此测试其建筑设计能力。与此同时,还有一位英国程序员创建了一个平台,让AI在“你画我猜”(Pictionary)和“四子棋”(Connect 4)等游戏中相互对战。
尽管学术界有更多严谨的AI性能测试方法,但这些略显怪异的测试反而迅速走红。原因在于,许多行业标准的AI基准测试对普通人来说过于晦涩难懂。企业经常标榜其AI在奥林匹克数学竞赛或博士级别难题中的解题能力,但大多数人使用聊天机器人只是为了聊天或回复电子邮件。即使是行业内普遍采用的评测方法,也未必更有效或更具信息量。
以“聊天机器人竞技场”(Chatbot Arena)为例,这是一个受到众多AI爱好者和开发者密切关注的公共基准测试平台,允许任何网络用户对AI在特定任务上的表现进行评分,例如创建网页应用程序或生成图像。然而,参与评分的用户往往不具有代表性,他们大多来自AI和科技行业,并且他们的投票也常常基于个人且难以捉摸的偏好。
像“四子棋”、“我的世界”和“威尔・史密斯吃面条”这类奇特的AI基准测试显然不是严谨的实证研究,甚至不具备普遍适用性。即使AI能够完美生成“威尔・史密斯吃面条”的视频,也不意味着其能很好地生成汉堡的图像。然而,这些另类的AI基准测试可能在短期内不会消失,毕竟它们不仅具有娱乐性,而且还易于理解。展望未来,2025年又会有哪些新奇的基准测试会走红呢?
本文来源: IT之家【阅读原文】