火山引擎发布大模型训练的视频预处理方案：AI技术助力豆包视频生成模型应用与优化

10月15日，火山引擎在视频云技术大会上推出了一项新的大模型训练视频预处理方案，旨在解决视频大模型训练过程中遇到的成本、质量和性能等问题。这一技术方案已被成功应用于豆包视频生成模型。火山引擎总裁谭待在会上强调，随着AIGC（人工智能生成）和多模态技术的发展，用户体验正在发生深刻的变化。火山引擎视频云正积极将AI大模型与视频技术相结合，为企业提供全面的技术解决方案。

抖音集团视频架构负责人王悦表示，对训练视频进行预处理是保证大模型训练效果的关键步骤。预处理过程包括统一视频数据格式、提升数据质量、实现数据标准化、减少数据量以及处理标注信息，从而帮助模型更高效地学习视频特征，提高训练效果和效率。然而，这一过程也面临许多挑战，如超大规模视频数据集带来的计算和处理成本激增、视频样本数据质量参差不齐、处理链路复杂以及多种异构算力资源的调度问题。

为了解决这些问题，火山引擎推出了基于自研多媒体处理框架BMF的大模型训练视频预处理方案。该方案能够有效降低算力成本，并通过算法和工程方面的优化，实现对海量视频数据的高质量预处理，从而提高模型训练效率。此外，火山引擎还发布了移动端后处理解决方案BMF lite版本，支持端侧大模型接入和算子加速，使其更加轻量、通用。

豆包视频生成模型PixelDance在训练过程中采用了火山引擎的大模型训练视频预处理方案，充分利用了大量潮汐资源，为模型训练提供了有力支撑。火山引擎视频云团队还为PixelDance生产的视频提供了从编辑、上传、转码、分发到播放的全生命周期一站式服务，确保其商业化应用的顺利进行。

除了视频预处理方案外，火山引擎还推出了多项“音视频+AI”技术方案，包括跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式AI实时交互方案和AIG3D&大场景重建方案。这些方案涵盖了视频的生产端、交互端和消费端，全面融入了AI能力。例如，对话式AI实时交互方案利用豆包大模型和火山引擎自研的多项算法，实现了毫秒级人声检测和打断响应，提供丝滑稳定的端到端响应体验。

在沉浸式消费体验方面，火山引擎通过AI生成3D和大场景重建方案，为山西高平二郎庙金代戏台和北京正乙祠两座历史建筑生成了3D数字资产，并应用于抖音的戏曲直播场景中。此外，王悦还介绍了字节跳动自研视频编解码芯片的最新进展，该芯片在同等视频压缩效率下，成本节省了95%以上，并在2024MSU世界编码器大赛中获得最佳ASIC编码器奖项。该芯片即将对外开放测试，招募首批种子用户，共同探索其商业价值。

本文来源：