利用多模态大模型与JEST算法:谷歌新数据筛选方法使效率飙升13倍,算力成本骤降10倍

多模态大模型与数据需求挑战

随着GPT-4o、Gemini等多模态大模型的兴起,对训练数据的需求急剧增长。无论是自然语言处理、计算机视觉还是语音识别领域,高质量标注数据集对于提升模型性能至关重要。然而,当前的数据处理流程往往依赖人工筛选,这一过程不仅耗时耗力,而且成本高昂,难以满足大规模数据集的需求。

JEST:革新数据筛选技术

为了解决上述问题,谷歌DeepMind的研究团队开发了一种名为JEST的新算法,该算法通过智能选择数据批次来加速多模态大模型的学习效率。与现有技术相比,JEST能够将数据筛选效率提升13倍,并将算力需求降低10倍。这项研究的详细内容可在[论文链接](https://arxiv.org/abs/2406.17711)中找到。

JEST的评分策略

传统的数据标注方法侧重于单个数据点,而JEST则着眼于整个批次的质量。该算法采用模型为基础的评分函数,提供“硬学习者”、“易参考”和“可学习性”三种策略,以更高效的方式挑选出相关性高的子批次:

– 硬学习者策略:选择当前学习者模型难以掌握的样本,以避免重复学习已知信息。
– 易参考策略:倾向于选择对预训练参考模型而言较容易的样本,这有助于识别高质量数据点。
– 可学习性策略:结合前两种方法的优点,选取那些既对学习者模型具有挑战性又对参考模型较为简单的样本。

模型近似多分辨率训练

为了进一步提升JEST的性能并降低算力需求,研究人员采用了模型近似和多分辨率训练两种方法:

– 模型近似:通过降低图像分辨率和减少模型层的计算,显著减少了每次迭代所需的算力。
– 降低图像分辨率减少了模型需要处理的像素数量。
– 减少模型层的计算量减轻了模型在每次迭代中的算力负担。
– 多分辨率训练:允许模型在不同分辨率下处理数据,提高了灵活性和效率。模型先在低分辨率下捕捉大致特征,再逐步提高分辨率以提取更精细的信息。

实验验证

为了验证JEST的有效性,研究人员在ImageNet、COCO等多个数据集上进行了实验。实验结果表明,在图像分类、零样本学习、图像到文本检索等任务中,JEST均展现出了显著的数据筛选效率。特别是在过滤90%的数据后,JEST仅使用6700万个样本就能达到传统方法使用30亿样本的性能水平,效率提升了13倍,同时算力降低了10倍,并帮助大模型性能提升了约6%。

本文来源: ​AIGC开放社区公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...