2021年,谷歌在《自然》杂志上发表了一篇备受争议的论文《A graph placement methodology for fast chip design》。这篇论文的作者包括著名的研究员Jeff Dean和Quoc V. Le等人,他们提出了一种基于强化学习的芯片设计方法。据称,该方法能够在不到六小时内自动生成芯片布局,并且在功耗、性能和芯片面积等关键指标上优于或媲美人类工程师,而人类工程师通常需要数月的时间才能达到类似的效果。
谷歌在更早之前就已经发布了该论文的预印本,我们曾对此进行过报道,详情可参阅《6小时完成芯片布局,谷歌用强化学习助力芯片设计》。谷歌当时表示,这项基于强化学习的快速芯片设计方法对资金紧张的初创企业非常有益,可以帮助它们开发自己的AI和其他专用芯片。此外,这种方法有助于缩短芯片设计周期,使硬件能够更好地适应快速发展的技术研究。
然而,这篇论文虽然看似前景广阔,但三年来一直受到质疑。最近一期的《CACM》上,Synopsys的杰出架构师Igor Markov总结了人们对这篇论文的各种质疑。杜克大学的陈怡然教授在微博上分享了这篇文章,机器之心对其进行了简要翻译和整理。
关键见解
谷歌在《自然》杂志上发表的这篇关于AI芯片设计的论文引起了广泛关注,但也因其缺乏可复现的证据而引发争议。论文中提到的方法被描述为能够处理更广泛的组合优化问题,但并未通过关键问题的公式化和易于配置的测试示例来展示这一点。相反,论文仅针对谷歌专有的TPU电路设计块提供了五个块的结果,而可用的块远不止这些。
此外,论文中描述的强化学习方法仅优化了一个包含HPWL的简化函数,但并未针对开放电路示例进行纯HPWL优化的评估。论文中还隐瞒了实验的关键方面,存在严重的遗漏,主要表现在以下几个方面:
1. 设计时间的描述不详细:论文中只描述了设计过程时间从几天或几周缩短到几小时,但没有提供针对每个设计的具体时间,也没有将设计过程细分为不同阶段。
2. 运行时间的描述不全面:论文声称强化学习在每个测试用例中的运行时间不超过六小时,但这并没有包括全部的20个块,且仅涵盖了宏布局,而行业工具会放置所有电路组件。
3. 关键设计参数的缺失:论文没有提供每个TPU芯片块中宏的数量、大小和形状,以及面积利用率等关键设计参数。
4. 统计结果的不足:论文只给出了五个TPU块的结果,统计明显不足,高方差指标会产生噪声结果。
5. 人类设计师资质的不明确:论文没有说明被强化学习超越的人类芯片设计师的资质水平。
6. 芯片面积的不变性:论文声称改善了面积,但芯片面积和宏面积在布局过程中并未改变,标准单元面积也没有变化。
7. 公平比较的缺失:对于结果随时间推移而优化的迭代算法,应该在相同运行时间下或相同质量下进行公平比较,但论文没有提供这样的证据。
专家的怀疑
专家们认为,论文中提出的方法存在多个缺陷,主要包括:
– 资源使用过多:与现有技术相比,提出的强化学习方法使用了过多的CPU/GPU资源。
– 方法的简便性:逐个放置宏是最简单的方法之一,但在深度强化学习的驱动下,这种方法显得不便。
– 过时的技术:论文中使用了与20多年前类似的电路分区方法,这些技术与互连优化目标有所不同。
– 网格限制:论文将宏的位置限制在一个粗粒度的网格上,而最新的方法则避免了这种限制。
– 力导向放置技术的改进空间:论文中使用的力导向放置技术仍有很大的改进空间。
更多证据
论文发表后,Bae et al.、谷歌的文档和开源代码、Nature同行评议、Yue et al.等提供了更多数据。这些数据显示,先前的方法明显优于谷歌的强化学习方法。此外,UCSD的研究团队通过逆向工程和重新实现代码,发现商用EDA工具和模拟退火(SA)在多个基准测试中均优于谷歌的强化学习方法。
结论
综上所述,这篇《自然》论文在多个方面具有误导性,读者无法相信其最重要的声明和结论。论文的方法和结果无法从提供的描述中重现,这违反了《自然》杂志的既定编辑政策。依赖专有的TPU设计进行评估,以及实验报告不足,继续阻碍着方法和结果的可复现性。尽管论文作者试图驳斥批评,但未能成功。
本文来源: 机器之心【阅读原文】