国内公司有望做出Sora吗?这支清华系大模型团队给出了希望

国内公司在视频生成领域已有深厚的技术积累,尤其在2023年底,预测视频生成将迎来爆发。然而,OpenAI在春节期间推出了Sora,能生成长达1分钟的流畅视频,引发业界对国内外AI技术差距的担忧。Sora的核心技术是将视觉数据转化为统一的patch表示,结合Transformer和扩散模型,展现出强大的扩展性。清华团队在2022年9月提出的U-ViT与此相似,采用Transformer架构,提高了训练效率,并在多个数据集上进行了实验。

生数科技作为国内领先团队,基于U-ViT架构,开发了多模态模型UniDiffuser,展示出在视觉任务上的优秀性能。尽管Sora在视频任务上取得突破,但生数科技在图文生成上的工作表明,其在视频生成方面具有潜力。尽管面临与OpenAI的差距,生数科技已经在视频生成上进行探索,并计划加强这方面的工作。

生数科技CEO唐家渝和首席科学家朱军认为,Sora的出现比预期早,但技术上的差异并非无法追赶。他们强调,用Transformer替换U-Net是自然的选择,关键在于如何实现效果。生数科技的U-ViT和Sora的DiT虽在同一时期提出,但生数科技选择了优先发展图文任务,因为考虑到资源和技术成熟度。

未来,视频生成面临的主要挑战包括有效表示时空信息、大规模训练和语义理解。生数科技将继续优化其融合架构,从图像任务扩展到视频任务。他们坚信,通用多模态架构对于实现更强的通用性至关重要,而面临的难点是如何处理不同模态数据的特性、数据量不均衡和模态间对齐理解。

Sora的商业成功启示生数科技要有技术自信,同时加大资源投入。尽管国内外在工程技术上存在差距,但生数科技已有的探索和积累使其对视频生成的研发充满信心。降低成本、优化架构和提高模型效率将是应对成本问题的关键。生数科技的“原生多模态大模型”赛道旨在通过单一模型处理多种数据,提供更高效、全面的解决方案。Sora的出现揭示了媒体生产和现实世界模拟的商业机遇,如果能理解物理世界,其应用将更加广泛。

本文来源: 机器之心【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...