标签:大模型训练

火山引擎发布大模型训练的视频预处理方案:AI技术助力豆包视频生成模型应用与优化

10月15日,火山引擎在视频云技术大会上推出了一项新的大模型训练视频预处理方案,旨在解决视频大模型训练过程中遇到的成本、质量和性能等问题。这一技术方案已被成功应用于豆包视频生成模型。火山引擎总裁谭待在会上强调,随着AIGC(人工智能生成)和多模态技术的发展,用户体验正在发生深刻的变化。火山引擎视频云正积极将AI大模型与视频技术相结合,为企业提供全面的技术解决方案。 抖音集团视频架构负责人王悦表示,对训练视频进行预处理是保证大模型训练效果的关键步骤。预处理过程包括统一视频数据格式、提升数据质量...

火山引擎发布大模型训练的视频预处理方案,成功应用于豆包视频生成模型——BMF技术新突破

火山引擎发布大模型训练视频预处理方案 助力豆包视频生成模型 近日,在视频云技术大会上,火山引擎正式推出了大模型训练视频预处理方案,旨在解决视频大模型训练中的成本、质量和性能等问题。这一技术已经成功应用于豆包视频生成模型。 火山引擎总裁谭待在大会致辞中提到,随着AIGC(人工智能生成)和多模态技术的发展,用户体验正在发生深刻的变化。他表示:“火山引擎视频云正在积极探索AI大模型与视频技术的深度融合,为企业在技术底座、处理链路和业务增长等方面提供全面解决方案。” 自研多媒体处理框架BMF 助力豆包...

ByteCheckpoint: 豆包大模型团队与港大的新成果助力PyTorch下的AI大模型技术实现高效训练及故障恢复

最近,字节跳动豆包大模型团队与香港大学携手推出了ByteCheckpoint,这是一个针对大规模语言模型(LLM)的高效Checkpointing系统。该系统旨在优化大模型训练过程中的故障恢复机制,从而显著提高训练效率。根据Meta公司最新发布的研究报告显示,在一个由16384块H100 80GB GPU构成的训练集群上进行Llama3 405B模型训练时,短短54天内发生了419次训练中断,平均大约每3小时就会出现一次故障。因此,频繁的Checkpoint成为了应对高故障率的有效手段。 尽管Checkpoint对于减少训练进度损失至关重要,但传统Checkpoint技术却存在着...

AI Native基础设施引领未来:揭秘全球首例千卡级异构芯片混训平台——无问芯穹,打造无缝大模型训练体验!Infini-AI云平台与MxN中间层生态,让AI算力使用再无难题

在2024年世界人工智能大会的AI基础设施论坛上,无问芯穹的CEO夏立雪推出了全球首个千卡规模的异构芯片混训平台,以提高AI Native基础设施的算力利用率。 该平台Infini-AI云平台已集成大模型异构千卡混训能力,支持多种异构芯片的混合训练,并且具有万卡扩展性。自7月起,用户可通过试训申请在平台上进行700亿参数规模的大模型训练。无问芯穹的“MxN”中间层生态理念旨在实现多种大模型算法在多元芯片上的高效部署。此外,无问芯穹与清华、上交的研究团队合作开发了HETHUB系统,实现了六种不同品牌芯片的交叉混合训练,降低了...

智谱再投AI Infra清华系公司!已在大模型生态投资超13家企业

智谱AI,一家在大模型领域表现卓越的公司,近期对清程极智进行了投资,这是一家专注于构建高效人工智能系统软件的清华系企业,主要业务涉及智能芯片系统。清程极智已完成首轮融资,金额达数千万元人民币,投资方包括中金、中关村智友等,其中智谱AI持股2.1673%。此前,智谱AI还投资了同为清华系的无问芯穹,两家公司在AI Infra层面展开竞争。清程极智致力于国产算力智能模型大规模训练平台系统的开发,提供比N卡集群更快、更经济的模型训练和推理系统。公司有两个研发重点,一是兼容英伟达和国产芯片的大规模并行训练框架,...