苹果公司震撼发布300亿参数多模态AI大模型MM1.5：卓越的图像识别与自然语言推理能力引领科技新潮流

近日，苹果公司推出了一款名为MM1.5的多模态AI大模型，参数规模达到了惊人的300亿。这款模型基于前一代MM1的架构进行了全面升级，并且已经在Hugging Face平台上发布了相关文档。

MM1.5模型在数据驱动的原则下进行了训练，重点研究了在不同训练周期中混合多种数据对模型性能的影响。该模型提供了一系列不同的参数规模选项，从10亿到300亿不等，具备强大的图像识别和自然语言推理能力。

在MM1.5的新版本中，苹果的研发团队改进了数据混合策略，显著提升了模型在多文本图像理解、视觉引用与定位以及多图像推理等方面的表现。根据团队的研究，他们在持续预训练阶段引入了高质量的OCR数据和合成图像描述，进一步提高了模型对含有大量文本的图像的理解能力。

此外，在监督式微调阶段，研究人员深入分析了不同类型的数据对模型表现的影响，并优化了视觉指令微调数据的混合方式。这样一来，即使是较小规模的模型（如10亿、30亿参数版本）也能表现出色，实现更高的效率。

值得注意的是，苹果公司还推出了两款专门的模型：MM1.5-Video用于视频理解，MM1.5-UI则专注于移动设备用户界面（UI）的理解。特别是MM1.5-UI模型，未来有望成为iOS背后的“苹果牌”AI，不仅能够处理各种视觉引用与定位任务，还能总结屏幕上的功能，并通过与用户的对话进行交互。

尽管MM1.5模型在多项基准测试中表现出色，苹果团队仍计划通过进一步融合文本、图像和用户交互数据，并设计更复杂的架构，来提升模型对移动设备UI的理解能力，从而使“苹果牌”AI更加智能和高效。

本文来源：

快科技【阅读原文】

文章版权归作者所有，未经允许请勿转载。

490

448

394

155

273

486

暂无评论

您必须登录才能参与评论！

暂无评论...