国内知名的开源社区OpenBMB近期推出了其最新研发的开源多模态大模型——MiniCPM-V2.6。这款模型拥有80亿参数,在单图像、多图像以及视频理解等方面的表现超越了GPT-4V;尤其在单图像理解上,其效果优于GPT-4o mini、Gemini1.5Pro 与 Claude3.5Sonnet 等同类模型。MiniCPM-V2.6不仅显著降低了模型的内存占用,还提高了推理效率,并且首次实现了在iPad等移动端设备上进行实时视频理解。
MiniCPM-V2.6基于SigLip-400M和阿里云的Qwen2-7B模型进行开发,相较于之前的版本V2.5,性能有了显著提升,并新增了多图像和视频理解的功能。在最新的OpenCompass评估体系中,MiniCPM-V2.6平均得分达到了65.2,在多个流行的基准测试中表现出色,仅凭80亿参数便在单图像理解上超越了GPT-4o mini、GPT-4V、Gemini1.5Pro 和 Claude3.5Sonnet等知名多模态大模型。
MiniCPM-V2.6具备强大的多图像理解和上下文学习能力,在Mantis-Eval、BLINK、Mathverse mv 和 Sciverse mv等多个多图像基准测试中取得了领先的成绩,并展现出优秀的上下文学习能力。此外,它还具有出色的视频理解能力,能够接受视频输入并对视频内容进行对话,为视频中的时空信息提供精确的字幕描述。在Video-MME测试中,无论是否包含字幕,MiniCPM-V2.6的表现均优于GPT-4V、Claude3.5Sonnet 和 LLaVA-NEXT-Video-34B。
该版本还在OCR识别任务上取得了重大突破,能够更加准确地识别和转录图像中的文字内容,例如它可以处理任意纵横比且分辨率高达180万像素(如1344×1344)的图像,在OCRBench上达到了行业领先水平,超越了GPT-4o、GPT-4V 和 Gemini1.5Pro等专有模型。
为了确保模型的安全性和可靠性,MiniCPM-V2.6采用了最新的RLAIF-V和VisCPM技术,有效减少了幻觉的产生,提高了模型的可信度。在Object HalBench上的测试结果显示,其幻觉率显著低于GPT-4o 和 GPT-4V。
MiniCPM-V2.6支持多种语言,包括但不限于英语、中文、德语、法语、意大利语和韩语,增强了对多种语言的识别和生成能力,为开发者提供了构建多语言应用的可能性。
此外,MiniCPM-V2.6拥有极高的推理效率,处理180万像素的图像时仅产生640个token,相比其他模型减少了75%的token数量,极大地提高了推理效率、首token延迟、内存使用和功耗,使得其能够在iPad等移动设备上高效支持实时视频理解。
MiniCPM-V2.6易于使用且扩展性强,支持通过多种方式进行高效利用,包括通过llama.cpp和ollama实现在本地设备上进行高效的CPU推理,提供int4和GGUF格式的量化模型,支持vLLM进行高吞吐量和内存高效的推理,同时也支持在新领域和任务上进行微调。
截至目前,MiniCPM-V2.6已经在GitHub上获得了超过9000颗星的好评,成为了开源多模态领域中一款性能卓越的模型。
本文来源: AIGC开放社区公众号【阅读原文】