标签：视觉大模型优化

无需人类或GPT-4打标签！南大&旷视研究院无监督范式大幅降低视觉大模型对齐成本

南大和旷视研究院的专家们开发了一种创新的无监督范式，名为Self-Supervised Visual Preference Alignment（SeVa），旨在降低视觉大模型的偏好对齐成本。研究团队发现现有的视觉大模型在用户体验方面存在不足，如不遵循指令、产生误导性回答等问题。为了解决这些问题，他们提出了一套自动化构建偏好数据的方法，无需GPT-4或人工打标签。 SeVa通过构造正负样本对比数据集，利用LLaVa-1.5模型的图像增广技术，生成正样本（原始图像的回答）和负样本（增广图像的回答）。这种方法提高了模型的指令遵循能力和用户友好性，减少了...

来源：

量子位【阅读原文】
Tags：DPO训练 GPT-4 SeVa 无监督范式视觉大模型视觉大模型优化

9个月前