阿里国际发布最新Ovis多模态模型，机器学习与自动驾驶领域迎来重大突破

近日，阿里国际AI团队发布了一款名为Ovis的多模态大模型，该模型在图像理解和多种子任务上实现了重大突破，达到了最新的技术水平（SOTA）。Ovis不仅可以识别菜品图并提供烹饪方法，还能为植物诊断疾病、准确翻译手写英文到中文，并且能精准分析财务报表数据。

多模态大模型能够处理不同类型的输入数据，如文本和图像。相较于传统的大型语言模型（LLMs），这类模型不仅擅长处理文本数据，还能处理非文本数据，如图像等。根据多模态权威评测平台OpenCompass的数据，Ovis1.6-Gemma2-9B在30B参数以下的模型中取得了综合排名第一，超越了MiniCPM-V-2.6等行业领先的大模型。

Ovis的核心优势

Ovis在数学推理、物体识别、文本提取以及复杂任务决策等方面表现出色。具体而言，它具备以下五大优点：

1. 创新架构设计：引入了可学习的视觉嵌入词表，将连续的视觉特征转化为概率化的视觉token，再通过视觉嵌入词表加权生成结构化的视觉嵌入，从而提升了多模态任务的表现。

2. 高分图像处理：支持处理极端长宽比的图像，兼容高分辨率图像，展现了出色的图像理解能力。

3. 全面数据优化：覆盖了Caption、VQA、OCR、Table、Chart等多个多模态数据方向，显著提升了多模态问答和指令跟随等任务的表现。

4. 卓越模型性能：在OpenCompass评测平台上，Ovis1.6-Gemma2-9B在30B参数以下的模型中取得了综合排名第一，超过了Qwen2-VL-7B、MiniCPM-V-2.6等模型。特别是在数学问答等任务中，其表现接近70B参数的模型。

5. 全部开源可商用：Ovis系列模型采用Apache 2.0许可证，Ovis 1.0、1.5的数据、模型、训练和推理代码均已全部开源，可复现。Ovis1.6系列中的Ovis1.6-Gemma2-9B也已开源权重。

多模态大模型的应用场景

在AI领域，多模态大模型的应用场景非常广泛，包括但不限于自动驾驶、医疗诊断、视频理解、图像描述生成、视觉问答等。例如，在自动驾驶领域，多模态大模型可以整合来自摄像头、雷达和激光雷达的数据，以实现更精准的环境感知和决策。此外，多模态大模型也被认为是通往通用人工智能的重要一步。

据媒体报道，阿里国际在过去一年中成立了AI团队，并在40多个电商场景中测试了AI能力，包括商品图文、营销、搜索、广告投放、SEO、客服、退款、店铺装修等。基于Ovis模型开发的应用已帮助50万中小商家优化了1亿款商品的信息。商家对于AI的需求不断增长，近半年来，平均每两个月AI调用量就翻一番。

相关链接

– 论文 arXiv： [https：//arxiv.org/abs/2405.20797](https：//arxiv.org/abs/2405.20797)
– Github： [https：//github.com/AIDC-AI/Ovis](https：//github.com/AIDC-AI/Ovis)
– Huggingface： [https：//huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B](https：//huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B)
– Demo： [https：//huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B](https：//huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B)

本文来源：