全球AI算力报告发布：机器学习硬件大揭秘，NVIDIA A100成LLM首选，谷歌TPU助力超100万H100等效算力，GPU与AI加速器竞争激烈

随着人工智能（AI）技术的迅猛发展，其物质基础——机器学习硬件也取得了显著进步。目前全球已有超过140款AI加速器问世，广泛应用于深度学习模型的开发和部署。据Epoch AI发布的全球算力估计报告，通过公开信息分析了当前机器学习硬件的现状和未来趋势。

除了传统的硬件厂商如英伟达（NVIDIA）和AMD推出高性能加速卡外，一些新兴企业也开始自主研发芯片（「造芯」），进一步提升了算力水平。从2008年到2024年，全球机器学习硬件的计算能力呈现出快速增长的趋势。

硬件类型多样化及性能提升

除了常见的图形处理单元（GPU），市场上还出现了专门用于张量计算的张量处理单元（TPU）。报告显示，全球机器学习硬件总量每年增长43%，而价格则下降了30%。低精度计算逐渐成为主流，顶级硬件能效每1.9年翻一番。在过去的八年中，训练大型模型所需的处理器数量增加了20多倍。

摩尔定律在ML硬件中的体现

以16位浮点运算衡量，机器学习硬件的性能以每年43%的速度增长，每1.9年翻一番。32位性能也有类似的趋势。优化后的机器学习数字格式和张量核心提供了额外的性能改进。驱动因素包括晶体管数量的增加和其他半导体制造技术的进步，这些改进降低了每FLOP的成本，提高了能源效率，并实现了大规模的人工智能训练。

性价比与能效

机器学习硬件在不同精度下的峰值计算性能性价比每年提升30%。每美元性能迅速提高，任何给定精度和固定性能水平的硬件每年都会便宜30%。与此同时，制造商不断推出更强大、更昂贵的硬件。低精度格式（尤其是张量FP16）训练的模型变得越来越普遍，这得益于使用针对人工智能计算优化的张量核心和数据格式时，GPU通常速度更快。

顶级硬件的应用与算力帝国

根据Epoch的数据集，NVIDIA A100是最常用的高引用或最先进人工智能模型的硬件，自发布以来已用于65个著名ML模型。其次是NVIDIA V100（用于55个模型）和谷歌的TPU v3（用于47个模型）。预计NVIDIA H100到2023年底的销量将超过A100，可能成为最受欢迎的训练模型GPU。

谷歌、微软、Meta和亚马逊是四大「算力帝国」，拥有相当于数十万个NVIDIA H100的AI算力。这些计算资源既用于内部AI开发，也用于云客户，包括许多顶级AI实验室。例如，谷歌可能拥有超过一百万个H100当量的计算能力，主要来自他们的TPU；微软则可能拥有最大的NVIDIA加速器库存，约为50万个H100当量。

计算能力的增长与分布

自2019年以来，NVIDIA芯片的总可用计算能力大约每年增长2.3倍，全球NVIDIA组成的计算能力平均每10个月翻一番。Hopper这一代NVIDIA AI芯片目前占其所有AI硬件总计算能力的77%。按照这种增长速度，旧的芯片型号在其推出后大约4年左右，对累计计算量的贡献往往会低于一半。

此外，报告发现自2019年以来，计算能力的累计总和（考虑折旧）每年增长2.3倍。但仅考虑数据中心销售额，而忽略NVIDIA收入报告中「游戏」销售额带来的计算能力。TPU可能提供与NVIDIA芯片相当的总计算能力。

数据集与参考资料

Epoch同时公布了机器学习硬件数据集和数据分析源代码，详细数据分析流程参见下列NoteBook：[链接](https：//colab.research.google.com/drive/1gbbrKDKFjghUPmH-aSI9ACtb1Iuwg-cR?usp=sharing)。更多信息请参考[Epoch AI](https：//epoch.ai/data/machine-learning-hardware)。

本文来源：