阿里巴巴通义万相2.1模型重磅升级：首次实现中文文字到视频生成，支持无限长1080P视频高效编解码，大幅提升图像和视频生成能力

感谢IT之家网友动感超人233、風見暉一、Skyraver 提供的线索。据IT之家报道，阿里巴巴旗下的通义万相于1月10日推出了2.1版本模型升级。此次升级显著提升了视频生成和图像生成的能力。

在视频生成方面，通义万相2.1通过自主研发的高效VAE和DiT架构，增强了时空上下文建模能力。这使得该模型能够支持无限长1080P视频的高效编解码，并首次实现了中文文字到视频的生成功能，在VBench榜单上名列前茅。此外，通义万相2.1不仅支持中英文视频的一键生成艺术字，还提供了多种视频特效选项，如过渡、粒子效果和模拟等，以增强视觉表现力。

例如，一个Prompt可以描述为：以红色新年宣纸为背景，出现一滴水墨，墨汁缓缓晕染开来，最终形成“福”字，呈现出独特的东方韵味。背景设计高级简洁，具有杂志摄影感。

通义万相2.1还支持复杂运镜，能够还原真实世界的物理规律，如雨滴落在伞上会溅起水花。另一个例子是：一对穿着正式晚礼服的夫妇在回家途中遭遇大雨，撑着黑色雨伞，镜头跟随他们的步伐平稳移动，展现出他们在雨中的优雅姿态。

在图像生成方面，通义万相2.1采用了IC-LoRA图像生成训练方法，利用DiT架构，增强了文本到图像的上下文能力。用户可以通过多张图像的拼接与联合描述，实现关联图像间的组合生成，并保持特征稳定连续。例如，浪漫的公园里，一对青年男女在温馨的拥抱交谈。

广告声明：本文含有的对外跳转链接（包括但不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

本文来源：

IT之家【阅读原文】

# 每日AI快讯 # AI技术 # 图像生成能力提升 # 在图像生成方面 # 视频生成 # 通义万相 # 阿里巴巴 # 風見暉一

文章版权归作者所有，未经允许请勿转载。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

阿里巴巴通义万相2.1模型重磅升级：首次实现中文文字到视频生成，支持无限长1080P视频高效编解码，大幅提升图像和视频生成能力

【马斯克xAI公司推出独立Grok应用，挑战OpenAI：现已上架苹果iOS测试版商店，引领人工智能新潮流】

在未来的4年内，AI是否会全面接管脑力工作，使人类仅剩体力劳动？马斯克预言300亿特斯拉机器人将主导世界， Neuralink与自动驾驶技术推动火星殖民梦想成真

相关文章

暂无评论

AI最新资讯