整理后的文章()
智东西(公众号:zhidxcom)
编译 | 陈骏达、陈家阳
编辑 | Panken
4月13日,智东西消息——近日,在OpenAI发布史上最昂贵的模型GPT-4.5一个多月后,OpenAI联合创始人兼CEO萨姆·阿尔特曼(Sam Altman)与三位核心开发人员展开了一场长达45分钟的技术对谈。这场对话首次揭示了GPT-4.5研发过程中遇到的诸多挑战,包括项目周期严重超预期、计算集群频繁故障以及性能提升路径难以预测等细节。
GPT-4.5的研发始于两年前,是OpenAI有史以来最为周密的一项计划,涉及数百人的团队协作。据阿尔特曼透露,为了这一项目,OpenAI几乎全员投入。然而,研发过程中却遭遇了不少“灾难性问题”。例如,10万张显卡组成的集群暴露出基础设施中的隐藏小概率、深层次故障。为平衡时效与性能,OpenAI系统团队不得不采取“边修边训”的策略。其中一个隐藏的小bug导致集群频繁报错,直到训练进度达到约40%时才被发现并解决。
不过,这些挑战也促使OpenAI构建了更为强大的技术栈。如今,仅需5-10人即可复刻出GPT-4级别的大模型。从GPT-4到GPT-4.5,性能提升了约10倍,展现出“难以量化但全方位增强的智能”,甚至连OpenAI员工都感到意外。
OpenAI团队意识到,要实现下一个10倍乃至百倍的性能提升,算力已不再是瓶颈,关键在于数据效率。这意味着需要开发出能够利用更多算力从相同数量的数据中提取更多知识的方法。同时,系统正逐步从单集群架构转向多集群架构,未来的训练可能涉及规模高达1000万块GPU的协作学习,这对系统的容错能力提出了更高要求。
在这场对谈中,OpenAI员工还分享了关于数据长尾效应与Scaling Law的关系、机器学习与系统团队深度协同设计的优势、无监督学习的本质,以及“绝不放过任何异常”的问题排查文化。这些全面展示了GPT-4.5研发期间OpenAI的思考与收获。
除了阿尔特曼外,参与此次对谈的还有三位OpenAI员工:负责GPT-4.5预训练机器学习算法的Alex Paino、OpenAI首席系统架构师Amin Tootoonchian以及研究数据效率与算法的Daniel Selsam。
以下是对话的主要
一、GPT-4.5研发启动两年,耗时远超预期
萨姆·阿尔特曼问道:“打造如此庞大的模型(GPT-4.5),究竟需要什么?”
Alex Paino回应称,该项目启动于两年前。当时,OpenAI即将上线一个新的大型计算集群,团队抓住机会,进行了一系列工作以确定模型所需功能,并进行了大量降低风险的测试。整个计划涵盖了从系统到机器学习的整个技术栈,执行过程漫长而复杂。
Amin Tootoonchian补充道,从一开始就需要机器学习团队和系统团队密切合作,明确目标后再开始训练。尽管在机器学习和系统方面做了预测,但由于工作节奏快且需要利用最新计算资源,模型训练难以提前完美规划。因此,往往带着未解决的问题启动训练,并在运行过程中克服挑战。
二、如今只需5-10人即可完成GPT-4级别模型的训练
当被问及为什么从1万张显卡扩展到10万张显卡会遇到这么多问题时,Amin Tootoonchian表示,如果系统开发者足够敏锐,大部分问题可以在小规模阶段观察到。然而,一些原本常见但未被重视的问题,在规模扩大后会演变成灾难性问题。
对于灾难性后果的具体原因,Amin提到,基础设施问题普遍存在,如高故障率、多种类型的故障以及总体故障数量增加。大规模样本池还暴露了算力供应商未曾注意到的问题,包括网络和单个加速器的故障。虽然这是系统的挑战,但也正是其魅力所在——所有组件都需要按预期工作才能产生理想结果。
萨姆·阿尔特曼进一步询问,如果今天让团队挑选一个最小规模的团队,用现有知识和技术重新训练GPT-4,需要多少人?Alex Paino回答,现在只需5-10人即可完成GPT-4级别的模型训练。这得益于GPT-4.5研发过程中对技术栈的大幅改进。
三、数据效率成突破关键,新一代硬件带来新挑战
从Daniel Selsam的角度来看,训练大模型之所以困难,是因为做任何新事物都不容易。即便只是知道别人已经成功完成某事,也会让事情变得简单得多,因为最难的部分是有信心去做某事。他认为,知道某事可行本身就是一种超强的“作弊码”。
在预训练规模上实现下一个10倍或100倍的增长需要什么?Daniel认为,答案是数据效率。Transformer架构(即GPT)在利用数据方面非常高效,但它从数据中获取洞察力的深度有限。随着计算能力快速增长而数据增长相对缓慢,数据成为标准模式的瓶颈。因此,需要算法创新来利用更多算力从相同数量的数据中提取更多信息。
四、计算资源不再是主要瓶颈,算法尚未触及理论上限
萨姆·阿尔特曼指出,尽管推理模型是未来技术栈的关键组成部分,但让我们暂时聚焦传统预训练模型的发展边界。假设拥有无限的GPU算力、网络带宽和电力供应,但仍受限于当前存在的技术瓶颈,包括系统可靠性问题、容错训练方法的缺失以及现有数据集的限制。基于当前技术边界,预训练模型究竟能发展到什么水平?
Alex Paino表示,从机器学习和算法发展的角度来看,尚未触及明确的理论上限。事实上,我们才刚刚开始探索数据效率更高的算法以及如何更充分地利用现有数据资源。自GPT-4.5以来,数据而非计算正逐渐成为主要制约因素。
五、整体性能提升可预测,智能提升路径难以预测
在训练GPT-4.5的过程中,最有趣的机器学习经验是什么?Daniel Selsam提到,测试损失(衡量模型在未见过的测试数据上的表现好坏的指标)可以被准确预测,模型性能随规模扩大呈现可预测的提升。然而,测试损失的降低会以难以量化的方式转化为全方位增强的智能水平。
六、机器学习与系统团队紧密合作
在整个训练过程中,最积极的时刻是什么?Alex Paino回忆起一次令人兴奋的经历:他们在运行过程中做出的一些改变产生了比预期更好的影响。Amin Tootoonchian则提到,当团队终于攻克关键问题并看到显著性能提升时,整个团队的能量发生了明显转变。
七、GPT-4.5预训练是最周密的计划
Daniel Selsam强调,这次训练建立在极其周密的规划基础上。Alex Paino补充道,早在正式启动训练前一年,团队就开始筹备这个项目,并进行了多次大规模的风险控制测试运行。他们特别注重循序渐进地引入所有改进,确保每个改进在不同规模下的扩展性。
八、距离理想系统还有很长的路要走
萨姆·阿尔特曼问,GPT-4.5预训练启动后,还需要做哪些工作?Alex Paino表示,所有人需要持续优化系统并改进协同设计(co-design)。Amin Tootoonchian认为,机器学习很大程度上依赖于正确性判断,而系统层面的限制可能来自芯片、处理器、内存、网络或电源。
九、算法改进推动数据效率提高
当前最先进的算法与人类的数据效率相差多少?Daniel Selsam认为两者很难直接比较,但从语言学习层面上看差距巨大。几十年来,深度学习一直关注算力效率,而现在我们正在进入AI研究的新阶段,开始积累数据效率的胜利。
十、智能的本质是压缩,数据长尾效应让Scaling Law持续有效
无监督学习为何有效?Daniel Selsam解释,关键在于压缩。理想的智能形态是所罗门诺夫归纳(Solomonov induction)。通过找到一个最简程序来解释人类迄今为止产生的所有数据,可以实现近似表达。现实中的关键概念遵循幂律分布,这种分布特性决定了需要大规模数据和算力来有效捕捉所有关键概念,也决定了Scaling Law长期有效存在。
本文来源: