火山引擎发布大模型训练的视频预处理方案,成功应用于豆包视频生成模型——BMF技术新突破

火山引擎发布大模型训练视频预处理方案 助力豆包视频生成模型

近日,在视频云技术大会上,火山引擎正式推出了大模型训练视频预处理方案,旨在解决视频大模型训练中的成本、质量和性能等问题。这一技术已经成功应用于豆包视频生成模型。

火山引擎总裁谭待在大会致辞中提到,随着AIGC(人工智能生成)和多模态技术的发展,用户体验正在发生深刻的变化。他表示:“火山引擎视频云正在积极探索AI大模型与视频技术的深度融合,为企业在技术底座、处理链路和业务增长等方面提供全面解决方案。”

自研多媒体处理框架BMF 助力豆包视频生成模型突破难题

为了确保大模型训练的效果,对训练视频进行预处理至关重要。预处理过程包括统一数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息,从而提升模型的学习能力和训练效率。

抖音集团视频架构负责人王悦指出,当前大模型厂商面临的挑战主要包括超大规模视频训练数据集带来的高昂成本、视频样本质量参差不齐、处理链路复杂以及多种异构算力资源的调度问题。

火山引擎此次发布的预处理方案依托于自研的多媒体处理框架BMF,能够有效应对这些挑战。此外,该方案在算法和工程方面进行了优化,可以高效处理海量视频数据,实现处理链路的快速协同,显著提高模型训练效率。值得一提的是,火山引擎还发布了移动端后处理解决方案BMF lite版本,支持端侧大模型接入和算子加速。

豆包视频生成模型PixelDance的应用与突破

Bytedance Research负责人李航介绍,豆包视频生成模型PixelDance在训练过程中采用了火山引擎的大模型训练视频预处理方案,充分利用了大量潮汐资源,为模型训练提供了有力支撑。火山引擎视频云团队还为PixelDance提供了从编辑、上传、转码、分发到播放的一站式服务,保障了模型的商业化应用。

豆包视频生成模型PixelDance于9月24日发布,采用DiT架构,通过高效的DiT融合计算单元和全新的扩散模型训练方法,解决了多主体运动的复杂交互和多镜头切换的一致性问题,在业界引起了广泛关注。目前,该模型已通过火山引擎面向企业开放邀测。

多项“音视频+AI”技术方案 全链路适配AIGC时代

除了大模型训练视频预处理方案外,火山引擎还发布了多项“音视频+AI”技术方案,包括跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式AI实时交互方案和AIG3D&大场景重建方案,全面覆盖视频的生产、交互和消费端。

以对话式AI实时交互方案为例,火山引擎利用豆包大模型和自研算法,提供了强大的智能对话和自然语言处理能力,实现了毫秒级的人声检测和打断响应,以及丝滑稳定的端到端响应体验。

在沉浸式消费体验方面,火山引擎通过AI生成3D和大场景重建方案,为山西高平二郎庙金代戏台和北京正乙祠这两座历史建筑生成了3D数字资产,并应用于抖音的戏曲直播场景。

字节自研视频编解码芯片的最新进展

会上,王悦还透露了字节自研视频编解码芯片的最新进展。经过内部实践验证,该芯片在同等视频压缩效率下,成本节省超过95%,并在2024MSU世界编码器大赛中获得最佳ASIC编码器奖。王悦表示,该芯片将很快对外测试,招募首批种子用户,共同探索商业价值的可复制性。

火山引擎视频云团队将继续为字节跳动提供音视频技术,并通过火山引擎服务更多外部客户。

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...