标签：视频生成模型

字节跳动推出先进AI视频生成模型：多主体互动与高级审美带来前所未有的震撼体验

9月24日，字节跳动旗下的火山引擎在深圳举办了一场AI创新巡展，发布了两款视频生成大模型：PixelDance（简称P模型）和Seaweed（简称S模型）。这两款模型在审美和动态表现方面有了显著提升，并且解决了多主体互动和一致性的问题。为了让大家更好地了解这两款模型的能力，我们进行了实际测试。首先展示的是一个10秒的视频片段：一位年轻女子微皱眉头，生气地戴上墨镜，此时男主角进入画面，紧紧抱住她。整个过程中，人物的表情变化自然流畅，没有出现任何虚化或崩坏的现象。另一段视频中，一只金毛小狗在草地上追逐泡泡，画...

来源：

机器之心【阅读原文】
Tags：AI 多主体互动字节跳动视频生成模型高级审美

2个月前

智谱AI的国产Sora视频生成模型开源发布！CogVideoX-2B优化至18G，单张4090显卡即可运行

智东西8月6日报道，智谱AI发布了其视频生成模型CogVideoX-2B的开源版本，这一消息无疑为业界带来了振奋。该模型已在GitHub和Hugging Face平台上线，支持FP16精度下的高效运行，显著降低了硬件门槛——仅需配备18GB显存即可进行推理，而微调所需显存也不过40GB，这意味着单张4090或A6000显卡就能胜任相应任务。核心特点 - 提示词限制：CogVideoX-2B支持最多226个token的提示词； - 输出规格：生成视频长度为6秒，帧率为8帧/秒，分辨率为720 * 480； - 未来规划：计划发布性能更优、参数量更大的版本。性能表现根据相关论...

来源：

智东西【阅读原文】
Tags：CogVideoX-2B 开源智谱AI 机器学习视频生成模型

4个月前

黑森林实验室发布FLUX.1：由Stable Diffusion原团队打造，旨在成为领先的图像与视频生成模型

引言随着技术的飞速发展，开源图像生成模型领域迎来了新的竞争者。黑森林实验室，由Stable Diffusion的核心团队创立，近日推出了其最新的图像生成模型FLUX.1，这款模型以其卓越的表现迅速引起了业界的关注。模型亮点 FLUX.1提供了三种不同版本的模型：专业版、开发者版和快速版。这些模型在文字生成、复杂构图以及人手描绘方面表现出色。尤其值得一提的是，即便是快速版的FLUX.1[schnell]也能在保持高质量的同时实现快速生成，这使得它在同类模型中脱颖而出。技术表现在性能测试中，FLUX.1[pro]和FLUX.1[dev]两款...

来源：

智东西【阅读原文】
Tags：FLUX.1 Stable Diffusion 图像生成视频生成模型黑森林实验室

4个月前

Sora全球上线：Vidu视频生成模型打造动画风格的二次元世界 — 首发实测展示AI创作工具如何在30秒内制作出精彩大片

国产视频生成模型“Vidu”：打造独特动画风格与高效创作工具国产视频生成模型“Vidu”由清华系初创企业生数科技推出，该模型专攻动画风格视频生成，具备快速生成、高质量渲染及多镜头切换等特色功能。Vidu支持4秒和8秒固定时长的高清视频输出，并能够根据文本描述精确还原场景细节，适用于二次元文化爱好者及动画创作者。快速生成与细节呈现：Vidu的亮点 - 高速生成：仅需30秒即可完成4秒视频的渲染。 - 精准语义理解：即使面对长文本描述，也能准确捕捉并展现关键信息。 - 多镜头切换：单一文本提示即可实现不同视角的视...

来源：

智东西【阅读原文】
Tags：AI创作工具 Vidu 二次元文化动画风格视频生成模型

4个月前

Sora爆火马斯克急了！特斯拉才拥有最好的视频生成技术

OpenAI新推出的视频生成模型Sora引起了广泛关注。这款模型只需简单的提示词，即可生成长达1分钟的高清视频，被视为视频生成领域的重大突破。尽管目前仅限少数人试用，OpenAI CEO Sam Altman已在推特上接受在线订单，让人们有机会体验Sora。然而，Sora的发布也让特斯拉CEO马斯克表达了看法，他在Twitter上与OpenAI互动，暗示对其转变成营利公司的不满。马斯克指出，特斯拉具备出色的现实世界模拟和视频生成技术，这可能优于Sora。Sora是一个基于扩散模型的创新，能统一处理不同格式的视频和图像。它的技术包括OpenAI先前在D...

来源：

快科技【阅读原文】
Tags：AI视觉认知 OpenAI Sora 物理模拟视频生成模型高清视频

9个月前

效果炸裂！OpenAI首个视频生成模型发布，1分钟流畅高清，网友：整个行业RIP

近日，奥特曼推出OpenAI的创新成果——视频生成模型Sora，这是继DALL·E 3后的又一力作，可生成长达1分钟的高清视频。Sora展现了强大的场景构建能力，如热闹的春节、雨后东京的光影效果，甚至能模拟好莱坞电影预告片的质感。模型能理解并执行复杂的指令，如群体动态和物理交互，如纸飞机在森林中的飞行。然而，Sora尚存不足，如物理模拟精度和因果理解，有时会出现对象数量变化或空间细节混淆等问题。技术上，Sora基于扩散模型，采用Transformer架构，能处理不同格式的视觉数据，并利用DALL·E 3的重述提示词技术增强指令遵循...

来源：

量子位【阅读原文】
Tags：AI视频生成 DALL·E 3 OpenAI Sora 物理世界模拟视频生成模型

9个月前

标签：视频生成模型

字节跳动推出先进AI视频生成模型：多主体互动与高级审美带来前所未有的震撼体验

智谱AI的国产Sora视频生成模型开源发布！CogVideoX-2B优化至18G，单张4090显卡即可运行

黑森林实验室发布FLUX.1：由Stable Diffusion原团队打造，旨在成为领先的图像与视频生成模型

Sora全球上线：Vidu视频生成模型打造动画风格的二次元世界 — 首发实测展示AI创作工具如何在30秒内制作出精彩大片

Sora爆火 马斯克急了！特斯拉才拥有最好的视频生成技术

效果炸裂！OpenAI首个视频生成模型发布，1分钟流畅高清，网友：整个行业RIP

Sora爆火马斯克急了！特斯拉才拥有最好的视频生成技术