48个文生视频+技术报告，揭秘OpenAI最强视频GPT

每日AI快讯1年前 (2024)发布 AI部落小助手

OpenAI推出了创新的文本生成视频模型Sora，这款模型可根据文字指示生成长达1分钟的高清视频，展现卓越的视觉效果和细节处理。Sora的独特之处在于其深度理解文本，能在单一视频中创建多个镜头，维持角色一致性。它还能理解物理属性，处理复杂场景，并支持文本指令、图像输入和视频编辑。

Sora采用Transformer架构，可扩展性强，能一次性生成或延长视频。通过多帧预见能力，保证主体在视线外时依然保持不变。相较于传统模型，Sora在原尺寸数据上训练，增加了灵活性和构图改进。它拥有强大的语言理解能力，通过训练高度描述性的视频字幕提升文本保真度和整体质量。此外，Sora还能接受现有图像或视频输入，执行多种编辑任务。

OpenAI展示了48个Sora生成的未修改视频，涵盖多样化的场景，从现实生活到幻想世界。虽然Sora在处理复杂场景和空间细节时仍有限制，但OpenAI正采取安全措施以确保模型的安全应用，并期望通过持续研发，推动视频模型成为高级模拟器，模拟物理和数字世界。

Sora由Bill Peebles、Tim Brooks领导，Connor Holmes负责系统设计，其潜力预示着视频生成模型将在未来发挥更大作用，OpenAI致力于与各界合作，确保技术的负责任使用。

本文来源：

智东西【阅读原文】

# 每日AI快讯 # OpenAI # Sora # 大模型 # 文生视频 # 生成视频

文章版权归作者所有，未经允许请勿转载。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

48个文生视频+技术报告，揭秘OpenAI最强视频GPT

没有更多了...

效果炸裂！OpenAI首个视频生成模型发布，1分钟流畅高清，网友：整个行业RIP

相关文章

暂无评论

AI最新资讯