揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿

Sora,这款新兴的艺术形式,源于AI生成视频的技术革新。OpenAI的最新杰作Sora,以其显著超越现有技术的高质量视频生成效果,让业界惊叹。这一突破得益于Diffusion Transformer(DiT)模型的创新应用,它通过操作视频和图像的时空patch,展现出多模态生成的强大潜力。

Sora的研发团队虽精干,核心成员包括Tim Brooks、William Peebles等,他们在视频生成领域有着深厚的学术背景,比如Brooks曾在谷歌和英伟达工作,并在UC Berkeley接受过Alyosha Efros的指导。Peebles的论文“Scalable diffusion models with transformers”为Sora奠定了技术基础,尽管初期曾遭CVPR拒绝,但在ICCV 2023上受到认可。

Sora的成功还得益于其他机构的多项先进技术,如谷歌大脑的世界模型、UC Berkeley的VideoGPT、微软亚洲研究院的NÜWA、Meta的MAE以及慕尼黑大学和Runway的Latent Diffusion Models等。这些研究共同推动了计算机视觉和自然语言处理的发展,为Sora铺平了道路。

未来,AI生成视频的技术趋势仍有待深入探究,而Sora的出现无疑激发了更多关于创新和可能性的讨论。即使不具备OpenAI的资源,我们仍能在这一领域找到自己的探索之路。

本文来源: 机器之心【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...