OpenBMB的MiniCPM-V2.6：一款国内领先的多模态大模型，超越GPT-4V，集OCR识别与视频理解于一体，已获超9000颗星认可

国内知名的开源社区OpenBMB近期推出了其最新研发的开源多模态大模型——MiniCPM-V2.6。这款模型拥有80亿参数，在单图像、多图像以及视频理解等方面的表现超越了GPT-4V；尤其在单图像理解上，其效果优于GPT-4o mini、Gemini1.5Pro 与 Claude3.5Sonnet 等同类模型。MiniCPM-V2.6不仅显著降低了模型的内存占用，还提高了推理效率，并且首次实现了在iPad等移动端设备上进行实时视频理解。

MiniCPM-V2.6基于SigLip-400M和阿里云的Qwen2-7B模型进行开发，相较于之前的版本V2.5，性能有了显著提升，并新增了多图像和视频理解的功能。在最新的OpenCompass评估体系中，MiniCPM-V2.6平均得分达到了65.2，在多个流行的基准测试中表现出色，仅凭80亿参数便在单图像理解上超越了GPT-4o mini、GPT-4V、Gemini1.5Pro 和 Claude3.5Sonnet等知名多模态大模型。

MiniCPM-V2.6具备强大的多图像理解和上下文学习能力，在Mantis-Eval、BLINK、Mathverse mv 和 Sciverse mv等多个多图像基准测试中取得了领先的成绩，并展现出优秀的上下文学习能力。此外，它还具有出色的视频理解能力，能够接受视频输入并对视频内容进行对话，为视频中的时空信息提供精确的字幕描述。在Video-MME测试中，无论是否包含字幕，MiniCPM-V2.6的表现均优于GPT-4V、Claude3.5Sonnet 和 LLaVA-NEXT-Video-34B。

该版本还在OCR识别任务上取得了重大突破，能够更加准确地识别和转录图像中的文字内容，例如它可以处理任意纵横比且分辨率高达180万像素（如1344×1344）的图像，在OCRBench上达到了行业领先水平，超越了GPT-4o、GPT-4V 和 Gemini1.5Pro等专有模型。

为了确保模型的安全性和可靠性，MiniCPM-V2.6采用了最新的RLAIF-V和VisCPM技术，有效减少了幻觉的产生，提高了模型的可信度。在Object HalBench上的测试结果显示，其幻觉率显著低于GPT-4o 和 GPT-4V。

MiniCPM-V2.6支持多种语言，包括但不限于英语、中文、德语、法语、意大利语和韩语，增强了对多种语言的识别和生成能力，为开发者提供了构建多语言应用的可能性。

此外，MiniCPM-V2.6拥有极高的推理效率，处理180万像素的图像时仅产生640个token，相比其他模型减少了75%的token数量，极大地提高了推理效率、首token延迟、内存使用和功耗，使得其能够在iPad等移动设备上高效支持实时视频理解。

MiniCPM-V2.6易于使用且扩展性强，支持通过多种方式进行高效利用，包括通过llama.cpp和ollama实现在本地设备上进行高效的CPU推理，提供int4和GGUF格式的量化模型，支持vLLM进行高吞吐量和内存高效的推理，同时也支持在新领域和任务上进行微调。

截至目前，MiniCPM-V2.6已经在GitHub上获得了超过9000颗星的好评，成为了开源多模态领域中一款性能卓越的模型。

本文来源：