标签:大模型训练
国产GPU赋能大模型训练,蚂蚁Ling模型训练成本优化揭秘——张志强研究员详细回应
(由多段落组成) 第一段 蚂蚁国产GPU训练大模型的细节近日被曝光!Ling模型的研发负责人张志强在知乎上作出回应,分享了他们在大模型训练中的经验和教训。文章中提到,蚂蚁推出的两款MoE大模型能够在国产GPU上实现与英伟达同等效果的训练,甚至成本更低。这一消息引发了技术圈的广泛关注,并登上热搜。 第二段 张志强在知乎发布的长文中详细介绍了他们如何通过优化FLOPS来提升训练效率。他表示,无论是在GPU还是国产加速卡上,LLM的训练成本优化都是一个无止境的过程。通过一系列的技术努力,蚂蚁团队成功地将国产加速...
一听到「AI to B」的叫卖声,1688就再也坐不住了
整理后的 AI技术正在以肉眼可见的速度普及与下沉,它不仅可以提供即时问答服务,还能陪伴聊天,甚至成为了职场人手中的免费助手。这一现象让B端商家感到焦虑:既然大模型如此全能,那么AI是否也能在商业理解和经营中发挥重要作用?然而,与C端用户的直接应用不同,AI提升B端生产力的前提是深入理解具体业务,并可能需要对大模型进行进一步的精调和训练。 尽管“AI to B”看起来前景广阔,但实际操作却充满挑战。产业链中的每个角色,无论是主动还是被动,都不可避免地被这场AI风暴所影响。一个春节假期过后,许多企业患上了A...
Predibase发布全球首个端到端强化微调平台,支持Qwen2.5大模型训练与深度学习无服务器方法
随着人工智能技术的快速发展,大模型训练和开发平台的需求日益增加。近日,Predibase 推出了一款全新的端到端强化微调(RFT)平台,该平台完全托管且无需服务器支持,为用户提供了更加便捷高效的解决方案。 Predibase 表示,DeepSeek-R1 的开源引发了全球 AI 领域的高度关注,许多人开始意识到强化学习微调在大模型训练中的重要性。基于这一启发,Predibase 开发了这款无服务器的端到端强化微调平台。与传统的监督式微调相比,RFT 不需要大量标注数据,而是通过奖励机制和自定义函数实现持续强化学习,同时支持从数据管理、...
通过创新的FP4训练框架和低精度量化技术,微软实现大模型训练成本大幅降低,性能媲美BF16,混合精度设计助力高效训练
微软推出首个FP4精度大模型训练框架,显著降低计算和存储成本 近日,微软研究院推出了首个支持FP4(4位浮点)精度的大模型训练框架。这一创新使得在相同超参数设置下,训练效果与FP8和BF16相当,大幅减少了所需的存储和计算资源。这意味着模型规模最高可达130亿参数,训练Tokens数量也达到了千亿级别。 尽管目前尚无原生支持FP4的硬件,研究人员通过在FP8 TensorCore上模拟实现了FP4训练。未来,如果采用真正的FP4硬件,效果有望进一步提升。不少网友表示,这种方法不仅提高了效率,还几乎不损失训练质量,堪称“游戏规则改...
火山引擎发布大模型训练的视频预处理方案:AI技术助力豆包视频生成模型应用与优化
10月15日,火山引擎在视频云技术大会上推出了一项新的大模型训练视频预处理方案,旨在解决视频大模型训练过程中遇到的成本、质量和性能等问题。这一技术方案已被成功应用于豆包视频生成模型。火山引擎总裁谭待在会上强调,随着AIGC(人工智能生成)和多模态技术的发展,用户体验正在发生深刻的变化。火山引擎视频云正积极将AI大模型与视频技术相结合,为企业提供全面的技术解决方案。 抖音集团视频架构负责人王悦表示,对训练视频进行预处理是保证大模型训练效果的关键步骤。预处理过程包括统一视频数据格式、提升数据质量...
火山引擎发布大模型训练的视频预处理方案,成功应用于豆包视频生成模型——BMF技术新突破
火山引擎发布大模型训练视频预处理方案 助力豆包视频生成模型 近日,在视频云技术大会上,火山引擎正式推出了大模型训练视频预处理方案,旨在解决视频大模型训练中的成本、质量和性能等问题。这一技术已经成功应用于豆包视频生成模型。 火山引擎总裁谭待在大会致辞中提到,随着AIGC(人工智能生成)和多模态技术的发展,用户体验正在发生深刻的变化。他表示:“火山引擎视频云正在积极探索AI大模型与视频技术的深度融合,为企业在技术底座、处理链路和业务增长等方面提供全面解决方案。” 自研多媒体处理框架BMF 助力豆包...
ByteCheckpoint: 豆包大模型团队与港大的新成果助力PyTorch下的AI大模型技术实现高效训练及故障恢复
最近,字节跳动豆包大模型团队与香港大学携手推出了ByteCheckpoint,这是一个针对大规模语言模型(LLM)的高效Checkpointing系统。该系统旨在优化大模型训练过程中的故障恢复机制,从而显著提高训练效率。根据Meta公司最新发布的研究报告显示,在一个由16384块H100 80GB GPU构成的训练集群上进行Llama3 405B模型训练时,短短54天内发生了419次训练中断,平均大约每3小时就会出现一次故障。因此,频繁的Checkpoint成为了应对高故障率的有效手段。 尽管Checkpoint对于减少训练进度损失至关重要,但传统Checkpoint技术却存在着...
AI Native基础设施引领未来:揭秘全球首例千卡级异构芯片混训平台——无问芯穹,打造无缝大模型训练体验!Infini-AI云平台与MxN中间层生态,让AI算力使用再无难题
在2024年世界人工智能大会的AI基础设施论坛上,无问芯穹的CEO夏立雪推出了全球首个千卡规模的异构芯片混训平台,以提高AI Native基础设施的算力利用率。 该平台Infini-AI云平台已集成大模型异构千卡混训能力,支持多种异构芯片的混合训练,并且具有万卡扩展性。自7月起,用户可通过试训申请在平台上进行700亿参数规模的大模型训练。无问芯穹的“MxN”中间层生态理念旨在实现多种大模型算法在多元芯片上的高效部署。此外,无问芯穹与清华、上交的研究团队合作开发了HETHUB系统,实现了六种不同品牌芯片的交叉混合训练,降低了...
智谱再投AI Infra清华系公司!已在大模型生态投资超13家企业
智谱AI,一家在大模型领域表现卓越的公司,近期对清程极智进行了投资,这是一家专注于构建高效人工智能系统软件的清华系企业,主要业务涉及智能芯片系统。清程极智已完成首轮融资,金额达数千万元人民币,投资方包括中金、中关村智友等,其中智谱AI持股2.1673%。此前,智谱AI还投资了同为清华系的无问芯穹,两家公司在AI Infra层面展开竞争。清程极智致力于国产算力智能模型大规模训练平台系统的开发,提供比N卡集群更快、更经济的模型训练和推理系统。公司有两个研发重点,一是兼容英伟达和国产芯片的大规模并行训练框架,...