近日,奥特曼推出OpenAI的创新成果——视频生成模型Sora,这是继DALL·E 3后的又一力作,可生成长达1分钟的高清视频。Sora展现了强大的场景构建能力,如热闹的春节、雨后东京的光影效果,甚至能模拟好莱坞电影预告片的质感。模型能理解并执行复杂的指令,如群体动态和物理交互,如纸飞机在森林中的飞行。
然而,Sora尚存不足,如物理模拟精度和因果理解,有时会出现对象数量变化或空间细节混淆等问题。技术上,Sora基于扩散模型,采用Transformer架构,能处理不同格式的视觉数据,并利用DALL·E 3的重述提示词技术增强指令遵循性。
目前,Sora已开放给部分视觉艺术家和电影制作人试用,他们借助Sora创造出各种精彩视频。用户可以通过提供提示词请求生成视频。OpenAI认为,这类模型对理解现实世界至关重要,是迈向人工智能全面发展的一个重要步骤。更多详情和技术论文将在后续发布。
本文来源: 量子位【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...