豆包大模型1.5Pro:实时语音功能与AI推理模型的完美结合,基于MoE架构和多模态能力,不蒸馏造就世界一流大模型,百万tokens仅需8毛,性能卓越不走捷径。

国内AI厂商春节前发布新一代大模型

随着蛇年的临近,国内的AI厂商们并未因节日而放缓脚步。在春节前夕,各大厂商纷纷推出了各自的新一代大模型。本周一,豆包发布了全新的实时语音功能,该功能在中文语音对话方面实现了断崖式领先,为用户带来了智商与情商双高的实时语音助手和聊天伙伴。

月之暗面与DeepSeek推出推理模型

紧接着,月之暗面与DeepSeek分别推出了强大的推理模型,这些模型在性能上可比肩满血版o1,吸引了全球范围内的广泛关注。而就在昨天,豆包再次更新了其大模型,推出了豆包大模型1.5Pro版本,进一步提升了其多模态能力,在多项公开评测基准上达到了全球领先水平。

豆包大模型1.5Pro版本亮点

此次更新的豆包大模型1.5Pro版本包括基础模型Doubao-1.5-pro(支持32k和256k上下文长度)、新版视觉理解模型Doubao-1.5-vision-pro、全新实时语音模型Doubao-1.5-realtime-voice-pro以及轻量级模型Doubao-1.5-lite(32k上下文长度)。新版本不仅在基础能力上得到了显著增强,其多模态能力也全面提升,尤其是在推理任务和全模态任务上的表现尤为突出。

性能与成本优化

在开发者关注的使用成本方面,豆包大模型坚持“训练-推理”一体设计,以实现性能与成本的最佳平衡。例如,处理1000个token仅需0.0008元,处理100万个token仅需8毛钱。这种低费率使得豆包大模型非常适合日常AI应用与智能体的开发。

技术创新与数据独立性

Doubao-1.5-pro的成功得益于稀疏MoE架构以及从预训练到后训练和推理阶段的层层创新。特别是在预训练阶段,团队通过稀疏度Scaling Law确定了性能和效率的最佳平衡点,使得小参数量激活的模型也能达到世界一流水平。此外,豆包大模型完全基于自主数据生产体系训练,未使用任何第三方模型生成的数据,确保了数据的独立性和可靠性。

多模态能力升级

在视觉多模态方面,豆包大模型通过多模态数据合成、动态分辨率、多模态对齐等技术升级,显著增强了视觉推理、文字文档识别等方面的能力。在语音模态方面,新的端到端Speech2Speech框架实现了语音对话中的真正意义上的语音理解生成端到端,极大地提升了语音对话的效果。

应用落地与未来发展

目前,豆包大模型已广泛应用于桌面、移动APP及浏览器插件中,用户可以通过火山引擎直接调用API免费体验。截至去年底,豆包大模型的日均token调用量已超4万亿次,较发布时增长了33倍。未来,豆包大模型将继续探索前沿技术,为AI应用的爆发做好准备。

本文来源: 机器之心【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...