全球AI算力报告发布:机器学习硬件大揭秘,NVIDIA A100成LLM首选,谷歌TPU助力超100万H100等效算力,GPU与AI加速器竞争激烈
机器学习硬件的快速发展与趋势
随着人工智能(AI)技术的迅猛发展,其物质基础——机器学习硬件也取得了显著进步。目前全球已有超过140款AI加速器问世,广泛应用于深度学习模型的开发和部署。据Epoch AI发布的全球算力估计报告,通过公开信息分析了当前机器学习硬件的现状和未来趋势。
除了传统的硬件厂商如英伟达(NVIDIA)和AMD推出高性能加速卡外,一些新兴企业也开始自主研发芯片(「造芯」),进一步提升了算力水平。从2008年到2024年,全球机器学习硬件的计算能力呈现出快速增长的趋势。
硬件类型多样化及性能提升
除了常见的图形处理单元(GPU),市场上还出现了专门用于张量计算的张量处理单元(TPU)。报告显示,全球机器学习硬件总量每年增长43%,而价格则下降了30%。低精度计算逐渐成为主流,顶级硬件能效每1.9年翻一番。在过去的八年中,训练大型模型所需的处理器数量增加了20多倍。
摩尔定律在ML硬件中的体现
以16位浮点运算衡量,机器学习硬件的性能以每年43%的速度增长,每1.9年翻一番。32位性能也有类似的趋势。优化后的机器学习数字格式和张量核心提供了额外的性能改进。驱动因素包括晶体管数量的增加和其他半导体制造技术的进步,这些改进降低了每FLOP的成本,提高了能源效率,并实现了大规模的人工智能训练。
性价比与能效
机器学习硬件在不同精度下的峰值计算性能性价比每年提升30%。每美元性能迅速提高,任何给定精度和固定性能水平的硬件每年都会便宜30%。与此同时,制造商不断推出更强大、更昂贵的硬件。低精度格式(尤其是张量FP16)训练的模型变得越来越普遍,这得益于使用针对人工智能计算优化的张量核心和数据格式时,GPU通常速度更快。
顶级硬件的应用与算力帝国
根据Epoch的数据集,NVIDIA A100是最常用的高引用或最先进人工智能模型的硬件,自发布以来已用于65个著名ML模型。其次是NVIDIA V100(用于55个模型)和谷歌的TPU v3(用于47个模型)。预计NVIDIA H100到2023年底的销量将超过A100,可能成为最受欢迎的训练模型GPU。
谷歌、微软、Meta和亚马逊是四大「算力帝国」,拥有相当于数十万个NVIDIA H100的AI算力。这些计算资源既用于内部AI开发,也用于云客户,包括许多顶级AI实验室。例如,谷歌可能拥有超过一百万个H100当量的计算能力,主要来自他们的TPU;微软则可能拥有最大的NVIDIA加速器库存,约为50万个H100当量。
计算能力的增长与分布
自2019年以来,NVIDIA芯片的总可用计算能力大约每年增长2.3倍,全球NVIDIA组成的计算能力平均每10个月翻一番。Hopper这一代NVIDIA AI芯片目前占其所有AI硬件总计算能力的77%。按照这种增长速度,旧的芯片型号在其推出后大约4年左右,对累计计算量的贡献往往会低于一半。
此外,报告发现自2019年以来,计算能力的累计总和(考虑折旧)每年增长2.3倍。但仅考虑数据中心销售额,而忽略NVIDIA收入报告中「游戏」销售额带来的计算能力。TPU可能提供与NVIDIA芯片相当的总计算能力。
数据集与参考资料
Epoch同时公布了机器学习硬件数据集和数据分析源代码,详细数据分析流程参见下列NoteBook:[链接](https://colab.research.google.com/drive/1gbbrKDKFjghUPmH-aSI9ACtb1Iuwg-cR?usp=sharing)。更多信息请参考[Epoch AI](https://epoch.ai/data/machine-learning-hardware)。
本文来源: