阿里国际发布最新Ovis多模态模型,机器学习与自动驾驶领域迎来重大突破

阿里国际发布最新多模态模型Ovis,多模态能力再升级

近日,阿里国际AI团队发布了一款名为Ovis的多模态大模型,该模型在图像理解和多种子任务上实现了重大突破,达到了最新的技术水平(SOTA)。Ovis不仅可以识别菜品图并提供烹饪方法,还能为植物诊断疾病、准确翻译手写英文到中文,并且能精准分析财务报表数据。

多模态大模型能够处理不同类型的输入数据,如文本和图像。相较于传统的大型语言模型(LLMs),这类模型不仅擅长处理文本数据,还能处理非文本数据,如图像等。根据多模态权威评测平台OpenCompass的数据,Ovis1.6-Gemma2-9B在30B参数以下的模型中取得了综合排名第一,超越了MiniCPM-V-2.6等行业领先的大模型。

Ovis的核心优势

Ovis在数学推理、物体识别、文本提取以及复杂任务决策等方面表现出色。具体而言,它具备以下五大优点:

1. 创新架构设计:引入了可学习的视觉嵌入词表,将连续的视觉特征转化为概率化的视觉token,再通过视觉嵌入词表加权生成结构化的视觉嵌入,从而提升了多模态任务的表现。

2. 高分图像处理:支持处理极端长宽比的图像,兼容高分辨率图像,展现了出色的图像理解能力。

3. 全面数据优化:覆盖了Caption、VQA、OCR、Table、Chart等多个多模态数据方向,显著提升了多模态问答和指令跟随等任务的表现。

4. 卓越模型性能:在OpenCompass评测平台上,Ovis1.6-Gemma2-9B在30B参数以下的模型中取得了综合排名第一,超过了Qwen2-VL-7B、MiniCPM-V-2.6等模型。特别是在数学问答等任务中,其表现接近70B参数的模型。

5. 全部开源可商用:Ovis系列模型采用Apache 2.0许可证,Ovis 1.0、1.5的数据、模型、训练和推理代码均已全部开源,可复现。Ovis1.6系列中的Ovis1.6-Gemma2-9B也已开源权重。

多模态大模型的应用场景

在AI领域,多模态大模型的应用场景非常广泛,包括但不限于自动驾驶、医疗诊断、视频理解、图像描述生成、视觉问答等。例如,在自动驾驶领域,多模态大模型可以整合来自摄像头、雷达和激光雷达的数据,以实现更精准的环境感知和决策。此外,多模态大模型也被认为是通往通用人工智能的重要一步。

据媒体报道,阿里国际在过去一年中成立了AI团队,并在40多个电商场景中测试了AI能力,包括商品图文、营销、搜索、广告投放、SEO、客服、退款、店铺装修等。基于Ovis模型开发的应用已帮助50万中小商家优化了1亿款商品的信息。商家对于AI的需求不断增长,近半年来,平均每两个月AI调用量就翻一番。

相关链接

– 论文 arXiv: [https://arxiv.org/abs/2405.20797](https://arxiv.org/abs/2405.20797)
– Github: [https://github.com/AIDC-AI/Ovis](https://github.com/AIDC-AI/Ovis)
– Huggingface: [https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B](https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B)
– Demo: [https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B](https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B)

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...