近期,AI圈被一款名为DeepSeek-v3的大模型震撼。这款大模型仅用1/11的算力就超越了Llama 3 405B的性能,引发了广泛关注。随之而来的还有雷军以千万年薪挖角DeepSeek研究员罗福莉的消息,使得DeepSeek团队成为全网热议的焦点。
团队年轻化与创新精神
DeepSeek团队最显著的特点是其成员年轻化。大量来自清华大学和北京大学(简称“清北”)的应届生、在读生活跃其中。这些年轻人不仅参与了从DeepSeek LLM v1到v3的全程研发,还提出了多项关键创新,如MLA新型注意力机制和GRPO强化学习对齐算法。这些创新大幅减少了计算量和推理显存,提升了模型性能。
关键技术突破
2024年5月发布的DeepSeek-V2是该团队破圈的关键一步。MLA(Multi-head Latent Attention)替代了传统的多头注意力机制,显著减少了计算资源需求。高华佐和曾旺丁为MLA架构做出了重要贡献,前者毕业于北大物理系,后者则来自北京邮电大学。
与此同时,DeepSeek还推出了GRPO(Group Relative Policy Optimization),这是一种PPO变体RL算法,通过群体得分估算baseline,减少了训练资源需求。这项技术得到了国内外广泛认可,包括阿里Qwen 2.5在内的多个项目也采用了GRPO。
核心成员揭秘
DeepSeek的核心成员中,不乏学术界和工业界的佼佼者。邵智宏是清华CoAI课题组博士生,曾在微软研究院工作,主导开发了多个DeepSeek项目。朱琪豪是北大计算机学院软件研究所的博士毕业生,发表了多篇CCF-A类论文,并获得了多个国际奖项。代达劢则是北大计算机学院的博士毕业生,专注于预训练语言模型的研究。
组织架构与文化
DeepSeek的创始人梁文锋在接受采访时透露,团队注重能力而非经验,核心岗位主要由应届和毕业一两年的人才构成。团队内部实行自然分工,不设前置的岗位限制,每个人都可以随时调用训练集群进行研究。这种灵活的组织结构和开放的文化氛围,使得DeepSeek能够迅速响应市场需求,不断推出创新成果。
软硬件协同设计
DeepSeek不仅重视模型算法的研发,还非常注重软硬件的协同设计。团队中的许多成员具有丰富的硬件优化经验,他们通过软硬件协同设计降低了训练成本,解决了传统超算架构在AI训练需求上的不足。例如,幻方AI搭建的萤火2号万卡集群,使用英伟达A100 GPU,在成本和能耗上具备显著优势。
多元化成果
除了语言模型外,DeepSeek还在3D生成领域取得了重要进展。清华博士生孙景翔在实习期间完成了相关工作。此外,中山大学逻辑学专业的辛华剑也在DeepSeek实习期间参与了用大模型证明数学定理的DeepSeek-Prover项目。
本文来源: 量子位【阅读原文】