标签:数据筛选

利用多模态大模型与JEST算法:谷歌新数据筛选方法使效率飙升13倍,算力成本骤降10倍

多模态大模型与数据需求挑战 随着GPT-4o、Gemini等多模态大模型的兴起,对训练数据的需求急剧增长。无论是自然语言处理、计算机视觉还是语音识别领域,高质量标注数据集对于提升模型性能至关重要。然而,当前的数据处理流程往往依赖人工筛选,这一过程不仅耗时耗力,而且成本高昂,难以满足大规模数据集的需求。 JEST:革新数据筛选技术 为了解决上述问题,谷歌DeepMind的研究团队开发了一种名为JEST的新算法,该算法通过智能选择数据批次来加速多模态大模型的学习效率。与现有技术相比,JEST能够将数据筛选效率提升13倍...

ChatGPT能耗大揭秘!DeepMind多模态学习新策略:JEST算法提升训练效率13倍,降低能耗90%

在应对人工智能模型,尤其是像ChatGPT这样的大型模型所带来的惊人能耗问题上,谷歌DeepMind的研究团队提出了一种名为JEST(Joint Example Selection and Truncation)的新算法。JEST通过减少迭代次数和计算量,成功降低了13倍的训练次数和10倍的计算需求,有望重塑AI训练的未来。据估计,ChatGPT每天消耗的电力相当于1.7万个美国家庭的总电量,而数据中心的能耗预计将在未来几年内翻倍。为了应对这一挑战,JEST通过多模态对比学习与联合示例选择,实现了更高效的数据筛选,从而减少对计算资源的需求。 JEST算法的核心在于从...