Deepseek-v3开源LLM新模型意外曝光!编程跑分在LiveBench上一举超越Claude 3.5 Sonnet,MoE架构助力性能飞跃

Deepseek新模型意外曝光,编程跑分超越Claude 3.5 Sonnet,登顶LiveBench最强开源LLM宝座

近日,Deepseek-v3在未正式宣布的情况下意外曝光,并迅速引发广泛关注。据Reddit网友爆料,Deepseek-v3已在API和网页上发布,多个评测榜单也相继出炉。

在Aider多语言编程测试排行榜中,Deepseek-v3一举超越了Claude 3.5 Sonnet,紧随o1之后位列第二,完成率从v2.5的17.8%大幅提升至48.4%。同时,在LiveBench测评中,Deepseek-v3成为当前最强的开源大语言模型(LLM),在非推理模型中仅次于gemini-exp-1206,排名第二。

目前,Hugging Face平台上已上线Deepseek-v3(Base)的开源权重,但尚未上传模型介绍卡片。综合多方爆料,Deepseek-v3相比前代v2和v2.5有了显著提升。

Deepseek-v3的技术亮点与改进

Deepseek-v3采用685B参数的MoE架构,包含256个专家,使用sigmoid函数作为路由方式,每次选取前8个专家(Top-k=8)。它支持64K上下文,默认支持4K,最长支持8K上下文,处理速度约为60个tokens/s。

机器学习爱好者Vaibhav Srivastav(简称瓦哥)深入研究了配置文件,并总结出v3与v2、v2.5的关键区别:

1. 门控函数的变化:v3使用sigmoid作为门控函数,取代了v2中的softmax函数。这使得模型能够在更大的专家集合上进行选择,而不像softmax倾向于将输入分配给少数几个专家。

2. 新的Top-k选择方法:v3引入了noaux_tc方法,无需辅助损失即可有效选择Top-k个专家。这一改进简化了训练过程并提高了效率。

3. 新增参数e_score_correction_bias:用于调整专家评分,从而在专家选择或模型训练过程中获得更好的性能。

此外,v3在配置上超越了v2.5,包括更多的专家数量、更大的中间层尺寸以及每个token的专家数量。

网友实测Deepseek-v3

独立开发者Simon Willison(Web开发框架Django的创始人之一)对Deepseek-v3进行了实际测试。他发现Deepseek-v3基于OpenAI的GPT-4架构,并展示了其图像生成能力,生成了一张鹈鹕骑自行车的SVG图。

另一网友在测试中发现,Deepseek-v3有时会回答自己来自OpenAI,推测可能是因为在训练时使用了OpenAI模型的回复。

尽管还未正式官宣,Deepseek-v3已在LiveBench坐上最强开源LLM宝座,赢得了众多网友的好评,被认为比只搞期货的OpenAI更具优势。

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...