阿里巴巴通义万相:免费开放AI视频生成工具,一键创作音画同步的国风视频,智能解读中国古诗

阿里巴巴近日宣布进军AI视频生成领域,这一消息在9月19日的云栖大会上引起了广泛关注。阿里首席技术官周靖人在会上宣布,通义万相将进行全面升级,其中包括推出全新的AI视频生成大模型,并且支持手机端和PC端。这一全新模型不仅面向公众免费开放,还提供了两大创作入口:文生视频和图生视频。

与市面上其他AI视频生成模型不同的是,通义万相此次发布并未采用“先占位后迭代”的策略,而是直接上线了两款创作工具。据官方介绍,通义万相AI能够一键生成最长5秒、每秒30帧、720P分辨率的音画同步视频,并且在核心架构Diffusion+Transformer的支持下,能够处理复杂的运动场景。此外,该模型针对中式元素进行了特别优化,使得生成的更具中国特色。

根据“AI新榜”的观察,与其他AI视频应用相比,通义万相的一大优势在于能够同时生成视频和音频。这意味着用户无需额外处理音效,即可获得完整的音画同步视频。为了验证这一特点,“AI新榜”进行了详细的实测。

实测体验

在通义万相的手机端App上,我们分别测试了文生视频和图生视频两个部分。首先,我们尝试了一首古诗的生成,结果令人满意:视频中的视觉要素齐全,整体风格具有浓厚的“中国味”,音效也与画面完美契合。接着,我们测试了几组经典的单人表情包,发现尽管存在一些人物动作不一致的问题,但整体生成效果依然令人惊喜。

在处理写实类风景和动物运动方面,通义万相的表现也非常出色。例如,生成的狼群移动虽然在大屏幕上有一些残影,但在手机上观看效果已经非常不错。特别是在生成古风人物时,人物动作流畅自然,画面风格充满武侠气息,音效也相当到位。

然而,通义万相在处理某些复杂提示词时仍然存在一些问题。例如,在生成带有复杂动作的表情包时,有时会出现面部变形等问题。尽管如此,整体来看,通义万相在生成视频方面的表现仍然令人印象深刻。

产品层面

从产品角度来看,通义万相致力于降低普通用户的使用门槛。在手机端,用户可以通过“热门创意”轻松一键生成同款视频,而“灵感扩写”则可以帮助优化提示词,提供更多的使用灵感。此外,通义万相还支持无限次数的免费生成,这无疑为用户提供了极大的便利。

在国内市场上,已有众多大厂在AI视频生成领域有所布局,如快手的可灵、字节跳动的即梦、百度的AI成片工具以及腾讯的腾讯智影。尽管阿里通义万相在功能上略显姗姗来迟,但在AI视频生成底层技术仍有待发展的背景下,谁能最终占据市场主导地位仍需拭目以待。

本文来源: AI新榜公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...