感谢IT之家网友 动感超人233、風見暉一、Skyraver 提供的线索。据IT之家报道,阿里巴巴旗下的通义万相于1月10日推出了2.1版本模型升级。此次升级显著提升了视频生成和图像生成的能力。
在视频生成方面,通义万相2.1通过自主研发的高效VAE和DiT架构,增强了时空上下文建模能力。这使得该模型能够支持无限长1080P视频的高效编解码,并首次实现了中文文字到视频的生成功能,在VBench榜单上名列前茅。此外,通义万相2.1不仅支持中英文视频的一键生成艺术字,还提供了多种视频特效选项,如过渡、粒子效果和模拟等,以增强视觉表现力。
例如,一个Prompt可以描述为:以红色新年宣纸为背景,出现一滴水墨,墨汁缓缓晕染开来,最终形成“福”字,呈现出独特的东方韵味。背景设计高级简洁,具有杂志摄影感。
通义万相2.1还支持复杂运镜,能够还原真实世界的物理规律,如雨滴落在伞上会溅起水花。另一个例子是:一对穿着正式晚礼服的夫妇在回家途中遭遇大雨,撑着黑色雨伞,镜头跟随他们的步伐平稳移动,展现出他们在雨中的优雅姿态。
在图像生成方面,通义万相2.1采用了IC-LoRA图像生成训练方法,利用DiT架构,增强了文本到图像的上下文能力。用户可以通过多张图像的拼接与联合描述,实现关联图像间的组合生成,并保持特征稳定连续。例如,浪漫的公园里,一对青年男女在温馨的拥抱交谈。
广告声明:本文含有的对外跳转链接(包括但不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
本文来源: IT之家【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...