标签:多模态语言模型

微软 Phi-3-vision 基准测试:和 Claude 3-haiku、Gemini 1.0 Pro 相当

在2024年的微软Build大会上,一项名为Phi-3-vision的新技术引起了关注。这款创新的多模态小型语言模型(SLM)主打视觉理解和图文解析能力,并且能在移动设备上实现高效运行。Phi-3-vision拥有42亿参数和128k token的上下文长度,专为本地AI场景设计,能有效支持各种视觉推理任务。微软通过发表的论文展示了Phi-3-vision与Claude 3-haiku和Gemini 1.0 Pro等其他模型的竞争力,尽管其参数量不大,但在ScienceQA、MathVista和ChartQA等测试中的性能表现出色。 此前,微软还对比了Phi-3-vision与其他知名模型,如字节跳动的Llam...

看懂网飞版「三体」!Reka Core登场:挑战GPT-4、Claude 3

AI初创公司Reka近期推出了创新的多模态语言模型Reka Core,该模型展现出理解图像、音频和视频等多元数据的卓越能力,成为继谷歌Gemini Ultra之后的又一瞩目之作。Reka Core在性能上与GPT-4相当,证明了其研发团队的努力成果。这款模型是通过数千台H100设备训练得出,支持32种语言和大量词汇上下文,尤其擅长处理长篇文档。Reka Core不仅在视频感知测试中超越Gemini Ultra,在图像任务的MMMU基准测试中也有出色表现,与行业领先模型相媲美。尽管训练时间较短,但其性能已超越许多顶级AI模型。值得注意的是,Reka Core具备强大...