ChatGPT能耗大揭秘!DeepMind多模态学习新策略:JEST算法提升训练效率13倍,降低能耗90%

在应对人工智能模型,尤其是像ChatGPT这样的大型模型所带来的惊人能耗问题上,谷歌DeepMind的研究团队提出了一种名为JEST(Joint Example Selection and Truncation)的新算法。JEST通过减少迭代次数和计算量,成功降低了13倍的训练次数和10倍的计算需求,有望重塑AI训练的未来。据估计,ChatGPT每天消耗的电力相当于1.7万个美国家庭的总电量,而数据中心的能耗预计将在未来几年内翻倍。为了应对这一挑战,JEST通过多模态对比学习与联合示例选择,实现了更高效的数据筛选,从而减少对计算资源的需求。

JEST算法的核心在于从“超级batch”中选择“子batch”,通过直接对整个子batch评分,而不是单个数据点,解决了现有方法忽视数据集整体组成的问题。算法采用“可学习性评分”(learnability score),结合了“硬学习”和“易学习”的评分方法,有效地筛选出对模型学习最有价值的数据。此外,研究还引入了在线模型近似和多分辨率训练技术,以提高效率和扩展性。

实验结果显示,JEST在选择可学习batch方面表现出色,显著加速了多模态模型的训练过程。通过使用JEST,模型可以在更少的训练样本和迭代次数下达到相同的性能水平,减少了能源消耗,同时也提高了计算效率。研究人员还发现,JEST的性能与精心筛选的参考模型的性能相关,进一步的数据筛选可能进一步提升JEST的效果。

本文来源: 新智元公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...