微软 Phi-3-vision 基准测试：和 Claude 3-haiku、Gemini 1.0 Pro 相当

在2024年的微软Build大会上，一项名为Phi-3-vision的新技术引起了关注。这款创新的多模态小型语言模型（SLM）主打视觉理解和图文解析能力，并且能在移动设备上实现高效运行。Phi-3-vision拥有42亿参数和128k token的上下文长度，专为本地AI场景设计，能有效支持各种视觉推理任务。微软通过发表的论文展示了Phi-3-vision与Claude 3-haiku和Gemini 1.0 Pro等其他模型的竞争力，尽管其参数量不大，但在ScienceQA、MathVista和ChartQA等测试中的性能表现出色。

此前，微软还对比了Phi-3-vision与其他知名模型，如字节跳动的Llama3-Llava-Next、微软研究院与高校合作的LlaVA-1.6以及阿里巴巴的QWEN-VL-Chat，在多个评估指标上，Phi-3-vision展现出优越性能。微软已将该模型分享到Hugging Face平台，供感兴趣的人士探索和使用。

本文来源：

IT之家【阅读原文】

# 每日AI快讯 # Phi-3-vision # 多模态语言模型 # 微软 # 移动平台 # 视觉推理

文章版权归作者所有，未经允许请勿转载。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

微软 Phi-3-vision 基准测试：和 Claude 3-haiku、Gemini 1.0 Pro 相当

性能对标Llama 3，算力消耗仅1/19！源2.0-M32大幅提升模算效率

AI的未来是一个巨大的模型，还是多个specialized小模型

相关文章

暂无评论

AI最新资讯