### 阿里巴巴通义万相2.1模型重磅升级:首次实现中文文字到视频生成,支持无限长1080P视频高效编解码,大幅提升图像和视频生成能力

感谢IT之家网友 动感超人233、風見暉一、Skyraver 提供的线索。据IT之家报道,阿里巴巴旗下的通义万相于1月10日推出了2.1版本模型升级。此次升级显著提升了视频生成图像生成的能力。

在视频生成方面,通义万相2.1通过自主研发的高效VAE和DiT架构,增强了时空上下文建模能力。这使得该模型能够支持无限长1080P视频的高效编解码,并首次实现了中文文字到视频的生成功能,在VBench榜单上名列前茅。此外,通义万相2.1不仅支持中英文视频的一键生成艺术字,还提供了多种视频特效选项,如过渡、粒子效果和模拟等,以增强视觉表现力。

例如,一个Prompt可以描述为:以红色新年宣纸为背景,出现一滴水墨,墨汁缓缓晕染开来,最终形成“福”字呈现出独特的东方韵味。背景设计高级简洁具有杂志摄影感。

通义万相2.1还支持复杂运镜,能够还原真实世界的物理规律,如雨滴落在伞上会溅起水花。另一个例子是:一对穿着正式晚礼服的夫妇在回家途中遭遇大雨,撑着黑色雨伞镜头跟随他们的步伐平稳移动,展现出他们在雨中的优雅姿态。

在图像生成方面,通义万相2.1采用了IC-LoRA图像生成训练方法,利用DiT架构,增强了文本到图像的上下文能力。用户可以通过多张图像的拼接与联合描述,实现关联图像间的组合生成并保持特征稳定连续。例如浪漫的公园里一对青年男女在温馨的拥抱交谈。

广告声明本文含有的对外跳转链接(包括但不限于超链接、二维码、口令等形式)用于传递更多信息节省甄选时间结果仅供参考IT之家所有文章均包含本声明。

本文来源: IT之家【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...