在2024年的微软Build大会上,一项名为Phi-3-vision的新技术引起了关注。这款创新的多模态小型语言模型(SLM)主打视觉理解和图文解析能力,并且能在移动设备上实现高效运行。Phi-3-vision拥有42亿参数和128k token的上下文长度,专为本地AI场景设计,能有效支持各种视觉推理任务。微软通过发表的论文展示了Phi-3-vision与Claude 3-haiku和Gemini 1.0 Pro等其他模型的竞争力,尽管其参数量不大,但在ScienceQA、MathVista和ChartQA等测试中的性能表现出色。
此前,微软还对比了Phi-3-vision与其他知名模型,如字节跳动的Llama3-Llava-Next、微软研究院与高校合作的LlaVA-1.6以及阿里巴巴的QWEN-VL-Chat,在多个评估指标上,Phi-3-vision展现出优越性能。微软已将该模型分享到Hugging Face平台,供感兴趣的人士探索和使用。
本文来源: IT之家【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...