全网热议的DeepSeek团队，清北应届生如何凭借AI大模型和MLA注意力机制在GRPO强化学习领域脱颖而出撑起一片天

深度解析DeepSeek团队：清北应届生撑起一片天

近期，AI圈被一款名为DeepSeek-v3的大模型震撼。这款大模型仅用1/11的算力就超越了Llama 3 405B的性能，引发了广泛关注。随之而来的还有雷军以千万年薪挖角DeepSeek研究员罗福莉的消息，使得DeepSeek团队成为全网热议的焦点。

团队年轻化与创新精神

DeepSeek团队最显著的特点是其成员年轻化。大量来自清华大学和北京大学（简称“清北”）的应届生、在读生活跃其中。这些年轻人不仅参与了从DeepSeek LLM v1到v3的全程研发，还提出了多项关键创新，如MLA新型注意力机制和GRPO强化学习对齐算法。这些创新大幅减少了计算量和推理显存，提升了模型性能。

关键技术突破

2024年5月发布的DeepSeek-V2是该团队破圈的关键一步。MLA（Multi-head Latent Attention）替代了传统的多头注意力机制，显著减少了计算资源需求。高华佐和曾旺丁为MLA架构做出了重要贡献，前者毕业于北大物理系，后者则来自北京邮电大学。

与此同时，DeepSeek还推出了GRPO（Group Relative Policy Optimization），这是一种PPO变体RL算法，通过群体得分估算baseline，减少了训练资源需求。这项技术得到了国内外广泛认可，包括阿里Qwen 2.5在内的多个项目也采用了GRPO。

核心成员揭秘

DeepSeek的核心成员中，不乏学术界和工业界的佼佼者。邵智宏是清华CoAI课题组博士生，曾在微软研究院工作，主导开发了多个DeepSeek项目。朱琪豪是北大计算机学院软件研究所的博士毕业生，发表了多篇CCF-A类论文，并获得了多个国际奖项。代达劢则是北大计算机学院的博士毕业生，专注于预训练语言模型的研究。

组织架构与文化

DeepSeek的创始人梁文锋在接受采访时透露，团队注重能力而非经验，核心岗位主要由应届和毕业一两年的人才构成。团队内部实行自然分工，不设前置的岗位限制，每个人都可以随时调用训练集群进行研究。这种灵活的组织结构和开放的文化氛围，使得DeepSeek能够迅速响应市场需求，不断推出创新成果。

软硬件协同设计

DeepSeek不仅重视模型算法的研发，还非常注重软硬件的协同设计。团队中的许多成员具有丰富的硬件优化经验，他们通过软硬件协同设计降低了训练成本，解决了传统超算架构在AI训练需求上的不足。例如，幻方AI搭建的萤火2号万卡集群，使用英伟达A100 GPU，在成本和能耗上具备显著优势。

多元化成果

除了语言模型外，DeepSeek还在3D生成领域取得了重要进展。清华博士生孙景翔在实习期间完成了相关工作。此外，中山大学逻辑学专业的辛华剑也在DeepSeek实习期间参与了用大模型证明数学定理的DeepSeek-Prover项目。

本文来源：