大模型行业探析:真正的‘开源大模型’是否存在?对比审视开源大模型与闭源模型,如Llama 3.1与Mistral Large2的发展趋势

近期,开源大模型市场异常活跃,苹果推出了70亿参数的小模型DCLM,紧接着Meta发布了Llama 3.1Mistral Large2,后者在多项基准测试中的表现甚至超越了某些闭源的顶尖模型(SOTA)。尽管开源派取得了显著成果,但与闭源派之间的争论仍未停息。

一方面,Meta在发布Llama 3.1之后宣称:“我们正步入一个由开源引领的新纪元。”另一方面,《华盛顿邮报》上Sam Altman的文章将开源与闭源之争上升到了国家和意识形态的高度。在中国的世界人工智能大会上,百度CEO李彦宏直言:“开源实际上是智商税”,因为闭源模型在性能上更强且推理成本更低。这一言论引发了广泛的讨论。

随后,傅盛对此发表了不同的观点,认为开源和闭源两个阵营应该是相互竞争、共同发展的关系。他反驳了“开源是智商税”的说法,指出:“如果企业使用昂贵的闭源大模型,那才是真正意义上的智商税。”

这场争论的核心在于技术发展方向和技术模式的选择,体现了不同利益相关方的观点和立场。在讨论大模型的开源与闭源之前,首先需要理解“开源”与“闭源”的含义。

“开源”起源于软件领域,指的是公开软件源代码,允许任何人查看、修改和分发。开源软件遵循互惠合作原则,促进了模块、管道和社区的持续改进。而闭源软件则因商业原因不公开源代码,只提供可执行文件。

对于大模型而言,“开源”的概念尚未形成统一的认识。虽然理念上与软件开源相似,鼓励开放、共享与协作,但大模型的开源面临着更多的挑战。例如,大模型开源不仅涉及大量计算资源和高质量数据,还可能伴随着使用限制。

李彦宏特别指出了大模型开源与传统软件开源的区别,即模型开源不等于代码开源。这意味着获取模型参数后还需进行额外的微调等工作,难以实现真正的迭代开发。

目前,大模型的全流程开源包括从数据收集、模型设计、训练到部署的所有环节均公开透明。然而,许多声称开源的大模型实际上仅开放了模型权重,而非完整的训练流程和技术细节。一些资源较少的人工智能企业和机构反而在这方面表现更佳。

以LLaMA3和Mistral Large2为例,这两款模型在开放性方面各有特点。LLaMA3公开了模型权重及部分基础代码,但未提供完整的训练代码或数据。Mistral Large2则在模型权重和API方面保持较高开放度,但在完整代码和训练数据方面较为保守。

在国内,研究机构主导的模型往往更加彻底地实现了开源,而商业公司则通过适度的开源策略在竞争中占据优势。开源大模型为行业带来了重要推动力,降低了开发门槛,促进了技术创新和产品快速落地。同时,它也为教育和科研提供了宝贵的资源。

然而,大模型的开放性是一个复杂的问题,既不是简单的二元特性,也不是单一的标准。开源大模型更像是一个光谱,涵盖了从完全开源到部分开源的不同程度。在这个过程中,需要平衡开放与安全、创新与责任。

开源与闭源模型之间的关系类似于软件行业中的开源与闭源软件共存模式。两者之间的良性竞争推动了技术的进步,为用户提供了多样化选择。最终,用户和市场将决定最适合自身需求的技术路径。

本文来源: ​硅星人Pro公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...