全网热议的DeepSeek团队,清北应届生如何凭借AI大模型和MLA注意力机制在GRPO强化学习领域脱颖而出撑起一片天

深度解析DeepSeek团队:清北应届生撑起一片天

近期,AI圈被一款名为DeepSeek-v3的大模型震撼。这款大模型仅用1/11的算力就超越了Llama 3 405B的性能,引发了广泛关注。随之而来的还有雷军以千万年薪挖角DeepSeek研究员罗福莉的消息,使得DeepSeek团队成为全网热议的焦点。

团队年轻化与创新精神

DeepSeek团队最显著的特点是其成员年轻化。大量来自清华大学和北京大学(简称“清北”)的应届生、在读生活跃其中。这些年轻人不仅参与了从DeepSeek LLM v1到v3的全程研发,还提出了多项关键创新,如MLA新型注意力机制和GRPO强化学习对齐算法。这些创新大幅减少了计算量和推理显存,提升了模型性能。

关键技术突破

2024年5月发布的DeepSeek-V2是该团队破圈的关键一步。MLA(Multi-head Latent Attention)替代了传统的多头注意力机制,显著减少了计算资源需求。高华佐和曾旺丁为MLA架构做出了重要贡献,前者毕业于北大物理系,后者则来自北京邮电大学。

与此同时,DeepSeek还推出了GRPO(Group Relative Policy Optimization),这是一种PPO变体RL算法,通过群体得分估算baseline,减少了训练资源需求。这项技术得到了国内外广泛认可,包括阿里Qwen 2.5在内的多个项目也采用了GRPO。

核心成员揭秘

DeepSeek的核心成员中,不乏学术界和工业界的佼佼者。邵智宏是清华CoAI课题组博士生,曾在微软研究院工作,主导开发了多个DeepSeek项目。朱琪豪是北大计算机学院软件研究所的博士毕业生,发表了多篇CCF-A类论文,并获得了多个国际奖项。代达劢则是北大计算机学院的博士毕业生,专注于预训练语言模型的研究。

组织架构与文化

DeepSeek的创始人梁文锋在接受采访时透露,团队注重能力而非经验,核心岗位主要由应届和毕业一两年的人才构成。团队内部实行自然分工,不设前置的岗位限制,每个人都可以随时调用训练集群进行研究。这种灵活的组织结构和开放的文化氛围,使得DeepSeek能够迅速响应市场需求,不断推出创新成果。

软硬件协同设计

DeepSeek不仅重视模型算法的研发,还非常注重软硬件的协同设计。团队中的许多成员具有丰富的硬件优化经验,他们通过软硬件协同设计降低了训练成本,解决了传统超算架构在AI训练需求上的不足。例如,幻方AI搭建的萤火2号万卡集群,使用英伟达A100 GPU,在成本和能耗上具备显著优势。

多元化成果

除了语言模型外,DeepSeek还在3D生成领域取得了重要进展。清华博士生孙景翔在实习期间完成了相关工作。此外,中山大学逻辑学专业的辛华剑也在DeepSeek实习期间参与了用大模型证明数学定理的DeepSeek-Prover项目。

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...