标签:多模态幻觉

8.3K Stars!《多模态大语言模型综述》重大升级

本文介绍了《多模态大语言模型综述》的重大升级,该综述详尽梳理了多模态大语言模型(MLLM)的发展和趋势。随着以GPT-4V为代表的MLLM迅速进步,该领域展现出新特点,如模型规模扩大和新的训练范式。MLLM在处理多模态信息方面表现出强大的新能力,例如视觉信息的理解和推理。文章探讨了MLLM的基础构成、拓展应用和相关研究课题,包括模型架构、训练策略、数据处理和评测标准。此外,还分析了多模态幻觉、多模态上下文学习、多模态思维链和LLM辅助的视觉推理等技术方向。最后,指出了MLLM面临的挑战,如长上下文理解、复杂指令...