DeepSeek新模型代码能力媲美OpenAI，开源模型引发热议，LiveCodeBench实测表现卓越，网友戏称今年编程只需Tab键

DeepSeek新模型表现优异，开源引发热议

近日，DeepSeek发布了其最新的大模型DeepSeek-R1-Preview，该模型在代码基准测试LiveCodeBench中表现出色，与OpenAI的o1中档推理设置相当。这一消息引起了广泛的关注和讨论。值得注意的是，这并不是之前已发布的轻量预览版DeepSeek-R1-Lite-Preview，而是使用了更大规模的基础模型，性能更加强劲。

DeepSeek团队不仅在评估过程中帮助LiveCodeBench团队解决了评分系统的一些bug，还展示了DeepSeek-R1-Preview的思考过程。此前，DeepSeek已经宣布R1模型将开源，这意味着一个与OpenAI o1编程能力相当的开源模型即将发布，网友们戏称2025年的编程将只剩下按Tab键。

强化学习训练，自我反思能力显著

两个月前，DeepSeek在其官网上线了DeepSeek-R1-Lite-Preview，该模型通过强化学习进行训练，具备大量的反思和验证能力，遵循新的Scaling Laws——推理越长，表现越强。在AIME测试基准中，随着推理长度的增加，DeepSeek-R1-Lite-Preview的表现稳步提升。用户的后续测试也证实了这一点，在某些情况下，模型能够自我纠正生成的推理步骤，表现出类似“自我反思”的能力。

LiveCodeBench：全面且公平的代码能力评估

LiveCodeBench是由UC伯克利、MIT和康奈尔大学团队推出的代码能力评估平台，旨在对大模型的代码能力进行全面且无污染的评估。为了避免测试数据泄露，平台会随着时间的推移不断从人类的编程竞赛平台收集新的题目。除了代码生成，还会评估模型在代码自修复、执行和测试输出预测等方面的能力，确保评估的公平性和可靠性。

国产大模型更新潮，竞争加剧

春节前夕，多个国产大模型团队纷纷更新自家模型，MiniMax开源了4M超长上下文新模型，性能比肩DeepSeek-v3和GPT-4o；国内首款端侧GPT-4o也在海外爆火，8B参数的模型可以在iPad上运行；讯飞版o1在数学领域表现出色，既能应对高考奥赛，也能辅导寒假作业；阿里则开源了首个视觉推理模型，击败了GPT-4o。

OpenAI动态：o3-mini即将推出

与此同时，OpenAI也在积极准备新模型的发布。o3-mini已完成外部合作测试，确定最终版，将在几周内推出，同时上线API和ChatGPT。o3-mini的速度非常快，但大多数情况下不如o1-pro。此外，OpenAI正在研究如何让AI一次性输出更多，并计划在2025年合并GPT系列和o系列。

本文来源：