标签:语音大模型

吉利汽车自研HAM-TTS语音大模型震撼发布:智能座舱体验全面升级,性能超越SOTA十个百分点

吉利汽车自研语音大模型HAM-TTS登顶 近日,吉利汽车自主研发的语音大模型HAM-TTS在发音准确性、自然度和说话人相似度等方面超越了之前的SOTA成果VALL-E,成为该领域的领军者。这一突破性进展让吉利汽车成为了语音合成大模型赛道上的一匹“黑马”。 吉利星睿AI大模型的应用 吉利自研的HAM-TTS模型全称为“Hierarchical Acoustic Modeling for Token-Based Zero-Shot Text-to-Speech”,即基于token的零样本文字转语音分层声学建模。这一技术主要应用于智能座舱的交互环节,显著提升了语音助手的发音质量。具体来说,HAM-TTS模...

最难方言温州话被攻克!中国电信语音大模型支持30种方言,这题GPT-4o可不会做啊

中国电信推出创新语音大模型,星辰语音,能识别和理解30多种包括温州话在内的方言,打破了以往单一模型仅支持特定方言的局限。该模型在多项国际比赛中表现出色,如INTERSPEECH2024和NIST低资源粤语识别任务,并已在智能客服等领域应用。中国电信是首个完成大语言模型研发并开源的央企,其语音大模型以超大规模语音预训练和多方言联合建模为核心技术,有效降低了新方言的数据需求。此外,中国电信还构建了丰富的方言数据库,并拥有强大的算力资源。他们选择方言作为重点,旨在保护和传承语言文化,提高沟通效率,特别是帮助老...

【IT之家评测室】支持长文本、长图文及长语音:讯飞星火大模型 V3.5 更新版体验

随着国内大模型竞争加剧,科大讯飞的讯飞星火大模型V3.5版本升级,提升了对长文本、长图文和长语音处理的能力。新版本新增了星火图文识别大模型、多情感超拟人合成技术和一句话复刻功能。据官方介绍,讯飞星火大模型在长文本处理上表现出色,能快速理解大量文本数据,并提供精准的行业问答答案。在IT之家的评测中,V3.5版本与GPT-4相媲美,甚至在逻辑推理和知识更新速度上具有优势。 长文本体验方面,讯飞星火大模型V3.5的“星火合同助手”组件能辅助用户快速起草合同,准确解读和回答复杂信息,如隐私政策和保险条款。对于长...