近日,苹果公司推出了一款名为MM1.5的多模态AI大模型,参数规模达到了惊人的300亿。这款模型基于前一代MM1的架构进行了全面升级,并且已经在Hugging Face平台上发布了相关文档。
MM1.5模型在数据驱动的原则下进行了训练,重点研究了在不同训练周期中混合多种数据对模型性能的影响。该模型提供了一系列不同的参数规模选项,从10亿到300亿不等,具备强大的图像识别和自然语言推理能力。
在MM1.5的新版本中,苹果的研发团队改进了数据混合策略,显著提升了模型在多文本图像理解、视觉引用与定位以及多图像推理等方面的表现。根据团队的研究,他们在持续预训练阶段引入了高质量的OCR数据和合成图像描述,进一步提高了模型对含有大量文本的图像的理解能力。
此外,在监督式微调阶段,研究人员深入分析了不同类型的数据对模型表现的影响,并优化了视觉指令微调数据的混合方式。这样一来,即使是较小规模的模型(如10亿、30亿参数版本)也能表现出色,实现更高的效率。
值得注意的是,苹果公司还推出了两款专门的模型:MM1.5-Video用于视频理解,MM1.5-UI则专注于移动设备用户界面(UI)的理解。特别是MM1.5-UI模型,未来有望成为iOS背后的“苹果牌”AI,不仅能够处理各种视觉引用与定位任务,还能总结屏幕上的功能,并通过与用户的对话进行交互。
尽管MM1.5模型在多项基准测试中表现出色,苹果团队仍计划通过进一步融合文本、图像和用户交互数据,并设计更复杂的架构,来提升模型对移动设备UI的理解能力,从而使“苹果牌”AI更加智能和高效。
本文来源: 快科技【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...