火山引擎Q-Insight结合强化学习,推动图像质量评估与多模态大模型在视频云领域的深度发展

随着生成式人工智能与多模态大模型的快速发展,AI 视觉创作正迎来前所未有的生产力爆发。然而,如何评估机器生成的画质是否符合人眼审美,成为了一个亟待解决的问题。北京大学与火山引擎多媒体实验室联合提出了一种基于强化学习训练的多模态大模型图像画质理解方案 Q-Insight,为这一问题提供了创新性的解决方案。

Q-Insight 的核心理念
Q-Insight 不再简单地依赖于对人眼评分的拟合,而是将评分视为一种引导信号,促使模型深入思考图像质量的本质原因。这种方法不仅提升了模型的准确性,还增强了其泛化推理能力,使得 Q-Insight 在多个任务上表现出色,包括质量评分、退化感知、多图比较和原因解释等。

技术背景与挑战
音视频作为人们日常消费的核心载体,在过去几十年中经历了从低分辨率到超高清沉浸体验的技术飞跃。然而,随着生成式人工智能的发展,传统的画质评估方法逐渐暴露出局限性。以往的方法主要分为两类:评分型方法缺乏明确的解释性,而描述型方法则严重依赖大规模文本数据进行监督微调,泛化能力和灵活性不足。

Q-Insight 的技术创新
Q-Insight 首次将强化学习引入图像质量评估任务,创造性地运用了「群组相对策略优化」(GRPO)算法。通过挖掘大模型自身的推理潜力,Q-Insight 实现了对图像质量的深度理解,无需依赖大量高成本的文本数据标注。实验结果表明,Q-Insight 在图像质量评分、退化检测和零样本推理任务中表现卓越,尤其是在噪声和 JPEG 压缩退化类型识别方面具有显著优势。

火山引擎视频云的技术升级
以 Q-Insight 为基础,火山引擎视频云围绕多媒体链路搭建了基于大模型的解决方案。该方案涵盖了生成式画质增强大模型、沉浸音频大模型、生成式视频编码大模型以及多模态理解大模型等多个领域。通过结合传统媒体处理能力和大模型算法,火山引擎视频云实现了更智能、更贴近实际业务需求的多媒体服务。

用户体验的跃迁
在大模型和生成式 AI 技术的推动下,音视频处理的底层技术正在经历深刻变革。这种变革不仅体现在算力层、算法层和框架层的深度融合,还带来了更智能、更交互、更沉浸的用户体验。火山引擎视频云以「体验」为核心,为企业提供一站式音视频服务,助力企业在播放体验、画质体验、交互体验和性能体验等方面实现全面提升与创新。

本文来源: 机器之心【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...