标签：视觉推理

微软 Phi-3-vision 基准测试：和 Claude 3-haiku、Gemini 1.0 Pro 相当

在2024年的微软Build大会上，一项名为Phi-3-vision的新技术引起了关注。这款创新的多模态小型语言模型（SLM）主打视觉理解和图文解析能力，并且能在移动设备上实现高效运行。Phi-3-vision拥有42亿参数和128k token的上下文长度，专为本地AI场景设计，能有效支持各种视觉推理任务。微软通过发表的论文展示了Phi-3-vision与Claude 3-haiku和Gemini 1.0 Pro等其他模型的竞争力，尽管其参数量不大，但在ScienceQA、MathVista和ChartQA等测试中的性能表现出色。此前，微软还对比了Phi-3-vision与其他知名模型，如字节跳动的Llam...

来源：

IT之家【阅读原文】
Tags：Phi-3-vision 多模态语言模型微软移动平台视觉推理

10个月前

8.3K Stars!《多模态大语言模型综述》重大升级

本文介绍了《多模态大语言模型综述》的重大升级，该综述详尽梳理了多模态大语言模型（MLLM）的发展和趋势。随着以GPT-4V为代表的MLLM迅速进步，该领域展现出新特点，如模型规模扩大和新的训练范式。MLLM在处理多模态信息方面表现出强大的新能力，例如视觉信息的理解和推理。文章探讨了MLLM的基础构成、拓展应用和相关研究课题，包括模型架构、训练策略、数据处理和评测标准。此外，还分析了多模态幻觉、多模态上下文学习、多模态思维链和LLM辅助的视觉推理等技术方向。最后，指出了MLLM面临的挑战，如长上下文理解、复杂指令...

来源：

量子位【阅读原文】
Tags：GPT-4V MLLM 多模态大语言模型多模态幻觉视觉推理

12个月前