近日,吉利汽车自主研发的语音大模型HAM-TTS在发音准确性、自然度和说话人相似度等方面超越了之前的SOTA成果VALL-E,成为该领域的领军者。这一突破性进展让吉利汽车成为了语音合成大模型赛道上的一匹“黑马”。
吉利星睿AI大模型的应用
吉利自研的HAM-TTS模型全称为“Hierarchical Acoustic Modeling for Token-Based Zero-Shot Text-to-Speech”,即基于token的零样本文字转语音分层声学建模。这一技术主要应用于智能座舱的交互环节,显著提升了语音助手的发音质量。具体来说,HAM-TTS模型在字符错误率、风格一致性、音调一致性和整体得分上均有显著提升。
在实际应用中,HAM-TTS模型支持多种场景,如虚拟形象联动、自定义人设、语音导航、新闻播报、绘本朗读等。此外,该模型还能根据特定场景需求智能调节语气、语调、停顿和情感等多维度参数,为用户提供更自然、生动的个性化语音交互体验。
技术创新与优势
吉利通过在传统TTS模型结构中引入分层声学建模方法,显著改善了合成语音中的发音错误和风格突变问题。此外,通过引入Text-to-LVS predictor和Text-HuBERT Aligner,进一步提高了音色的均匀性和模型的泛化能力。该模型还采用了基于UNet架构的声音转换预训练模型,生成大量具有不同音色但相同的合成语音数据,从而增加训练数据的多样性和数量,提升TTS模型的性能。
吉利的技术布局
吉利不仅在语音大模型方面取得了突破,还在其他多个领域展现了强大的技术实力。例如,吉利星睿AI大模型体系包括语言大模型、多模态大模型和数字孪生大模型三大基础模型,并衍生出多个应用场景。此外,吉利在算力方面也取得了显著进展,其云端总算力已从81亿亿次/秒扩容至102亿亿次/秒。
重新认识吉利
吉利在电动化领域取得成功后,又在智能化领域实现了重大突破。从算法能力到大模型体系化能力,再到数据能力,吉利展示了全面的技术实力。吉利不仅在汽车业务上持续投入核心技术,还在更广泛的底层科技领域不断展现出龙头企业的实力。
本文来源: 量子位【阅读原文】