中国首个喜马拉雅音频大模型通过备案：探索第四代音频生成技术，实现多情感演绎与超自然表达的珠峰AI里程碑

近日，上海网信办公布了最新一批通过备案的生成式大模型名单，喜马拉雅音频大模型与米哈游、阅文集团的筑梦岛等文本大模型一同入选，成为全国首个通过网信办备案的音频生成类大模型。这一消息标志着喜马拉雅音频大模型在全球范围内首次实现了第四代多情感演绎、超自然表达的技术突破。

喜马拉雅音频大模型是珠峰AI团队自主研发的成果，采用了先进的文本音频联合建模框架。通过在同一空间向量表征下实现音频与文本的联合建模训练，模型能够更准确地理解和处理音频与文本之间的关系，从而大幅提升了模型的性能和泛化能力。这是第四代音频大模型相比上一代的重要技术突破。

在训练过程中，珠峰AI团队首先对音频数据和文本数据进行了预处理，将其转化为适合模型输入的形式，并映射到同一空间向量表征中。训练流程主要包括预训练、有监督微调、领域有监督微调、说话人有监督微调和强化学习等几个阶段。通过这些流程的训练，模型具备了以下特点：15秒音色克隆能力、声音转换能力、超拟人多情感语音生成以及高可控风格和副语言能力。

经过严格的评估，喜马拉雅音频大模型在长音频如小说演播的场景下表现出色，特别是在角色演绎风格的可控性、音素表现的稳定性和语流韵律的自然度方面，显著优于国内外第三代音频生成模型。此外，该模型还广泛应用于AIGC有声书、Chat对话式交互等多个业务场景，例如最近非常受欢迎的有声书《我的阿勒泰》就是由喜马拉雅音频大模型生成的。

目前，喜马拉雅音频大模型已经正式上线，用户可以在珠峰AI官网上直接体验和创作自己的音频。这一技术不仅提升了用户体验，也为音频行业的未来发展提供了新的可能性。

本文来源：