标签:视频生成模型

字节跳动推出先进AI视频生成模型:多主体互动与高级审美带来前所未有的震撼体验

9月24日,字节跳动旗下的火山引擎在深圳举办了一场AI创新巡展,发布了两款视频生成大模型:PixelDance(简称P模型)和Seaweed(简称S模型)。这两款模型在审美和动态表现方面有了显著提升,并且解决了多主体互动和一致性的问题。 为了让大家更好地了解这两款模型的能力,我们进行了实际测试。首先展示的是一个10秒的视频片段:一位年轻女子微皱眉头,生气地戴上墨镜,此时男主角进入画面,紧紧抱住她。整个过程中,人物的表情变化自然流畅,没有出现任何虚化或崩坏的现象。另一段视频中,一只金毛小狗在草地上追逐泡泡,画...

智谱AI的国产Sora视频生成模型开源发布!CogVideoX-2B优化至18G,单张4090显卡即可运行

智东西8月6日报道,智谱AI发布了其视频生成模型CogVideoX-2B的开源版本,这一消息无疑为业界带来了振奋。该模型已在GitHub和Hugging Face平台上线,支持FP16精度下的高效运行,显著降低了硬件门槛——仅需配备18GB显存即可进行推理,而微调所需显存也不过40GB,这意味着单张4090或A6000显卡就能胜任相应任务。 核心特点 - 提示词限制:CogVideoX-2B支持最多226个token的提示词; - 输出规格:生成视频长度为6秒,帧率为8帧/秒,分辨率为720 * 480; - 未来规划:计划发布性能更优、参数量更大的版本。 性能表现 根据相关论...

黑森林实验室发布FLUX.1:由Stable Diffusion原团队打造,旨在成为领先的图像与视频生成模型

引言 随着技术的飞速发展,开源图像生成模型领域迎来了新的竞争者。黑森林实验室,由Stable Diffusion的核心团队创立,近日推出了其最新的图像生成模型FLUX.1,这款模型以其卓越的表现迅速引起了业界的关注。 模型亮点 FLUX.1提供了三种不同版本的模型:专业版、开发者版和快速版。这些模型在文字生成、复杂构图以及人手描绘方面表现出色。尤其值得一提的是,即便是快速版的FLUX.1[schnell]也能在保持高质量的同时实现快速生成,这使得它在同类模型中脱颖而出。 技术表现 在性能测试中,FLUX.1[pro]和FLUX.1[dev]两款...

Sora全球上线:Vidu视频生成模型打造动画风格的二次元世界 — 首发实测展示AI创作工具如何在30秒内制作出精彩大片

国产视频生成模型“Vidu”:打造独特动画风格与高效创作工具 国产视频生成模型“Vidu”由清华系初创企业生数科技推出,该模型专攻动画风格视频生成,具备快速生成、高质量渲染及多镜头切换等特色功能。Vidu支持4秒和8秒固定时长的高清视频输出,并能够根据文本描述精确还原场景细节,适用于二次元文化爱好者及动画创作者。 快速生成与细节呈现:Vidu的亮点 - 高速生成:仅需30秒即可完成4秒视频的渲染。 - 精准语义理解:即使面对长文本描述,也能准确捕捉并展现关键信息。 - 多镜头切换:单一文本提示即可实现不同视角的视...

Sora爆火 马斯克急了!特斯拉才拥有最好的视频生成技术

OpenAI新推出的视频生成模型Sora引起了广泛关注。这款模型只需简单的提示词,即可生成长达1分钟的高清视频,被视为视频生成领域的重大突破。尽管目前仅限少数人试用,OpenAI CEO Sam Altman已在推特上接受在线订单,让人们有机会体验Sora。然而,Sora的发布也让特斯拉CEO马斯克表达了看法,他在Twitter上与OpenAI互动,暗示对其转变成营利公司的不满。 马斯克指出,特斯拉具备出色的现实世界模拟和视频生成技术,这可能优于Sora。Sora是一个基于扩散模型的创新,能统一处理不同格式的视频和图像。它的技术包括OpenAI先前在D...

效果炸裂!OpenAI首个视频生成模型发布,1分钟流畅高清,网友:整个行业RIP

近日,奥特曼推出OpenAI的创新成果——视频生成模型Sora,这是继DALL·E 3后的又一力作,可生成长达1分钟的高清视频。Sora展现了强大的场景构建能力,如热闹的春节、雨后东京的光影效果,甚至能模拟好莱坞电影预告片的质感。模型能理解并执行复杂的指令,如群体动态和物理交互,如纸飞机在森林中的飞行。 然而,Sora尚存不足,如物理模拟精度和因果理解,有时会出现对象数量变化或空间细节混淆等问题。技术上,Sora基于扩散模型,采用Transformer架构,能处理不同格式的视觉数据,并利用DALL·E 3的重述提示词技术增强指令遵循...