DeepSeek新模型表现优异,开源引发热议
近日,DeepSeek发布了其最新的大模型DeepSeek-R1-Preview,该模型在代码基准测试LiveCodeBench中表现出色,与OpenAI的o1中档推理设置相当。这一消息引起了广泛的关注和讨论。值得注意的是,这并不是之前已发布的轻量预览版DeepSeek-R1-Lite-Preview,而是使用了更大规模的基础模型,性能更加强劲。
DeepSeek团队不仅在评估过程中帮助LiveCodeBench团队解决了评分系统的一些bug,还展示了DeepSeek-R1-Preview的思考过程。此前,DeepSeek已经宣布R1模型将开源,这意味着一个与OpenAI o1编程能力相当的开源模型即将发布,网友们戏称2025年的编程将只剩下按Tab键。
强化学习训练,自我反思能力显著
两个月前,DeepSeek在其官网上线了DeepSeek-R1-Lite-Preview,该模型通过强化学习进行训练,具备大量的反思和验证能力,遵循新的Scaling Laws——推理越长,表现越强。在AIME测试基准中,随着推理长度的增加,DeepSeek-R1-Lite-Preview的表现稳步提升。用户的后续测试也证实了这一点,在某些情况下,模型能够自我纠正生成的推理步骤,表现出类似“自我反思”的能力。
LiveCodeBench:全面且公平的代码能力评估
LiveCodeBench是由UC伯克利、MIT和康奈尔大学团队推出的代码能力评估平台,旨在对大模型的代码能力进行全面且无污染的评估。为了避免测试数据泄露,平台会随着时间的推移不断从人类的编程竞赛平台收集新的题目。除了代码生成,还会评估模型在代码自修复、执行和测试输出预测等方面的能力,确保评估的公平性和可靠性。
国产大模型更新潮,竞争加剧
春节前夕,多个国产大模型团队纷纷更新自家模型,MiniMax开源了4M超长上下文新模型,性能比肩DeepSeek-v3和GPT-4o;国内首款端侧GPT-4o也在海外爆火,8B参数的模型可以在iPad上运行;讯飞版o1在数学领域表现出色,既能应对高考奥赛,也能辅导寒假作业;阿里则开源了首个视觉推理模型,击败了GPT-4o。
OpenAI动态:o3-mini即将推出
与此同时,OpenAI也在积极准备新模型的发布。o3-mini已完成外部合作测试,确定最终版,将在几周内推出,同时上线API和ChatGPT。o3-mini的速度非常快,但大多数情况下不如o1-pro。此外,OpenAI正在研究如何让AI一次性输出更多,并计划在2025年合并GPT系列和o系列。
本文来源: 量子位【阅读原文】