吉利汽车自研HAM-TTS语音大模型震撼发布：智能座舱体验全面升级，性能超越SOTA十个百分点

近日，吉利汽车自主研发的语音大模型HAM-TTS在发音准确性、自然度和说话人相似度等方面超越了之前的SOTA成果VALL-E，成为该领域的领军者。这一突破性进展让吉利汽车成为了语音合成大模型赛道上的一匹“黑马”。

吉利星睿AI大模型的应用

吉利自研的HAM-TTS模型全称为“Hierarchical Acoustic Modeling for Token-Based Zero-Shot Text-to-Speech”，即基于token的零样本文字转语音分层声学建模。这一技术主要应用于智能座舱的交互环节，显著提升了语音助手的发音质量。具体来说，HAM-TTS模型在字符错误率、风格一致性、音调一致性和整体得分上均有显著提升。

在实际应用中，HAM-TTS模型支持多种场景，如虚拟形象联动、自定义人设、语音导航、新闻播报、绘本朗读等。此外，该模型还能根据特定场景需求智能调节语气、语调、停顿和情感等多维度参数，为用户提供更自然、生动的个性化语音交互体验。

技术创新与优势

吉利通过在传统TTS模型结构中引入分层声学建模方法，显著改善了合成语音中的发音错误和风格突变问题。此外，通过引入Text-to-LVS predictor和Text-HuBERT Aligner，进一步提高了音色的均匀性和模型的泛化能力。该模型还采用了基于UNet架构的声音转换预训练模型，生成大量具有不同音色但相同的合成语音数据，从而增加训练数据的多样性和数量，提升TTS模型的性能。

吉利的技术布局

吉利不仅在语音大模型方面取得了突破，还在其他多个领域展现了强大的技术实力。例如，吉利星睿AI大模型体系包括语言大模型、多模态大模型和数字孪生大模型三大基础模型，并衍生出多个应用场景。此外，吉利在算力方面也取得了显著进展，其云端总算力已从81亿亿次/秒扩容至102亿亿次/秒。

重新认识吉利

吉利在电动化领域取得成功后，又在智能化领域实现了重大突破。从算法能力到大模型体系化能力，再到数据能力，吉利展示了全面的技术实力。吉利不仅在汽车业务上持续投入核心技术，还在更广泛的底层科技领域不断展现出龙头企业的实力。

本文来源：