豆包大模型1.5Pro：实时语音功能与AI推理模型的完美结合，基于MoE架构和多模态能力，不蒸馏造就世界一流大模型，百万tokens仅需8毛，性能卓越不走捷径。

国内AI厂商春节前发布新一代大模型

随着蛇年的临近，国内的AI厂商们并未因节日而放缓脚步。在春节前夕，各大厂商纷纷推出了各自的新一代大模型。本周一，豆包发布了全新的实时语音功能，该功能在中文语音对话方面实现了断崖式领先，为用户带来了智商与情商双高的实时语音助手和聊天伙伴。

月之暗面与DeepSeek推出推理模型

紧接着，月之暗面与DeepSeek分别推出了强大的推理模型，这些模型在性能上可比肩满血版o1，吸引了全球范围内的广泛关注。而就在昨天，豆包再次更新了其大模型，推出了豆包大模型1.5Pro版本，进一步提升了其多模态能力，在多项公开评测基准上达到了全球领先水平。

豆包大模型1.5Pro版本亮点

此次更新的豆包大模型1.5Pro版本包括基础模型Doubao-1.5-pro（支持32k和256k上下文长度）、新版视觉理解模型Doubao-1.5-vision-pro、全新实时语音模型Doubao-1.5-realtime-voice-pro以及轻量级模型Doubao-1.5-lite（32k上下文长度）。新版本不仅在基础能力上得到了显著增强，其多模态能力也全面提升，尤其是在推理任务和全模态任务上的表现尤为突出。

性能与成本优化

在开发者关注的使用成本方面，豆包大模型坚持“训练-推理”一体设计，以实现性能与成本的最佳平衡。例如，处理1000个token仅需0.0008元，处理100万个token仅需8毛钱。这种低费率使得豆包大模型非常适合日常AI应用与智能体的开发。

技术创新与数据独立性

Doubao-1.5-pro的成功得益于稀疏MoE架构以及从预训练到后训练和推理阶段的层层创新。特别是在预训练阶段，团队通过稀疏度Scaling Law确定了性能和效率的最佳平衡点，使得小参数量激活的模型也能达到世界一流水平。此外，豆包大模型完全基于自主数据生产体系训练，未使用任何第三方模型生成的数据，确保了数据的独立性和可靠性。

多模态能力升级

在视觉多模态方面，豆包大模型通过多模态数据合成、动态分辨率、多模态对齐等技术升级，显著增强了视觉推理、文字文档识别等方面的能力。在语音模态方面，新的端到端Speech2Speech框架实现了语音对话中的真正意义上的语音理解生成端到端，极大地提升了语音对话的效果。

应用落地与未来发展

目前，豆包大模型已广泛应用于桌面、移动APP及浏览器插件中，用户可以通过火山引擎直接调用API免费体验。截至去年底，豆包大模型的日均token调用量已超4万亿次，较发布时增长了33倍。未来，豆包大模型将继续探索前沿技术，为AI应用的爆发做好准备。

本文来源：