标签:矩阵乘法
标题:DeepGEMM结合Hopper架构优化矩阵乘法,即时编译助力高性能计算——DeepSeek开源第三弹V3/R1训练推理核心代码仅300行
DeepSeek开源第三弹:V3/R1训练推理关键秘籍,核心代码仅300行 2025-02-26 10:40:49 来源:量子位 作者:金磊 发自 凹非寺 在开源周的第三天,DeepSeek团队正式推出了其最新的训练推理优化工具——DeepGEMM。这款FP8 GEMM(通用矩阵乘法)库不仅支持密集矩阵和混合专家(MoE)矩阵运算,而且核心代码仅有约300行,却能实现卓越的性能。 深入了解GEMM GEMM(通用矩阵乘法)是线性代数中的基础运算,在科学计算、机器学习及深度学习领域中扮演着重要角色。由于其计算量巨大,GEMM的性能优化至关重要。DeepGEMM正是为...