OpenAI掀小模型血战!苹果DCLM强势登场,碾压Mistral 7B全开源

随着OpenAI的GPT-4o mini、Mistral AI的Mistral NeMo,以及HuggingFace的小模型相继亮相,小模型市场正迅速升温。苹果最新加入这场竞争,推出了DCLM小模型,以其卓越性能和全面开源策略引发业界关注。

苹果推出的DCLM小模型拥有70亿和14亿参数两个版本,其中70亿参数版本超越了Mistral-7B,性能接近Llama3和Gemma。苹果的研究科学家Vaishaal Shankar强调,DCLM是目前性能最佳的真正开源模型,提供完整权重和训练代码,基于开放数据集DCLM-Baseline。苹果的这一举措赢得了广泛好评,与多数科技巨头的闭源模型形成鲜明对比。

DCLM系列模型在HuggingFace平台上已完全开源,采用decoder-only架构,使用PyTorch和OpenLM框架预训练。尽管使用的数据量不是最大的,但在与同等大小的开放数据模型比较时,DCLM在核心、MMLU和扩展准确率三个指标上均表现出色。尤其在5-shot MMLU任务上,DCLM-7B准确率高达63.7%,比SOTA MAP-Neo模型提高了6.6个百分点,且所需计算量减少40%。

DCLM的成功不仅归功于模型本身,其背后的DataComp基准也发挥了关键作用。该基准论文详细介绍了数据集的构建过程,强调了在固定模型下筛选最佳数据的重要性。这一思路与科技巨头们的研发策略不谋而合,预训练数据正成为决定LLM性能的关键因素。

AI科技巨头开始意识到,模型并非越大越好。小模型因其低成本、高速度和高专业性受到青睐,尤其是在特定任务上展现出巨大潜力。未来的发展趋势可能是大模型缩小后再次扩大规模,通过“巨兽”模型重构数据,形成理想合成形式,再供小模型学习,从而达到更高的效率和性能。

本文来源: 新智元公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...