2024年非官方基准测试引发热议：威尔・史密斯吃意大利面视频生成器在聊天机器人竞技场中大放异彩，我的世界人工智能应用评测标准走红

人工智能视频生成器的新奇基准测试：威尔・史密斯吃意大利面现象

近年来，随着人工智能（AI）视频生成技术的迅猛发展，一个有趣的现象逐渐在行业内流行开来。每当一家公司发布全新的人工智能视频生成器时，总会有人第一时间用它来制作威尔・史密斯吃意大利面的视频。这种现象不仅演变成了一种网络热梗，更成为衡量新型AI视频生成器性能的非官方标准——即能否逼真地呈现史密斯狼吞虎咽吃意大利面的场景。

2024年，这一现象继续发酵。史密斯本人也在去年2月通过Instagram发布了一段模仿视频，亲自参与了这场网络狂欢。事实上，“威尔・史密斯吃意大利面”只是众多奇特“非官方”评测标准中的一个例子。此前，一位16岁的开发者还开发了一款应用程序，让AI控制《我的世界》（Minecraft）游戏，并以此测试其建筑设计能力。与此同时，还有一位英国程序员创建了一个平台，让AI在“你画我猜”（Pictionary）和“四子棋”（Connect 4）等游戏中相互对战。

尽管学术界有更多严谨的AI性能测试方法，但这些略显怪异的测试反而迅速走红。原因在于，许多行业标准的AI基准测试对普通人来说过于晦涩难懂。企业经常标榜其AI在奥林匹克数学竞赛或博士级别难题中的解题能力，但大多数人使用聊天机器人只是为了聊天或回复电子邮件。即使是行业内普遍采用的评测方法，也未必更有效或更具信息量。

以“聊天机器人竞技场”（Chatbot Arena）为例，这是一个受到众多AI爱好者和开发者密切关注的公共基准测试平台，允许任何网络用户对AI在特定任务上的表现进行评分，例如创建网页应用程序或生成图像。然而，参与评分的用户往往不具有代表性，他们大多来自AI和科技行业，并且他们的投票也常常基于个人且难以捉摸的偏好。

像“四子棋”、“我的世界”和“威尔・史密斯吃面条”这类奇特的AI基准测试显然不是严谨的实证研究，甚至不具备普遍适用性。即使AI能够完美生成“威尔・史密斯吃面条”的视频，也不意味着其能很好地生成汉堡的图像。然而，这些另类的AI基准测试可能在短期内不会消失，毕竟它们不仅具有娱乐性，而且还易于理解。展望未来，2025年又会有哪些新奇的基准测试会走红呢？

本文来源：