Mistral AI强势出击,全面升级le Chat,推出Pixtral Large超大杯多模态模型图像生成新体验

一觉醒来,Mistral AI 再次带来了惊喜。今天,Mistral AI 宣布推出其多模态家族的第二位成员——Pixtral Large。这款模型基于 Mistral Large 2 构建,拥有 1240 亿参数,不仅具备强大的图像理解能力,还能处理文档、图表和自然图像,同时保持了 Mistral Large 2 在纯文本理解方面的优势。

除了发布新模型,Mistral AI 还对其免费聊天机器人 le Chat 进行了重大升级,新增了图像生成、网络搜索和交互式画布功能,全面对标 ChatGPT。所有这些功能都以免费测试版的形式开放,引起了 AI 社区的广泛关注。有人感慨道:“六个月前,开源模型与闭源模型之间存在巨大差距。如今,最先进的 AI 技术正迅速向所有人开放。”

开源多模态大模型 Pixtral Large

Pixtral Large 可根据 Mistral 研究许可证 (MRL) 用于研究和教育,同时也支持商业用途的实验、测试和生产。这款模型源自 2024 年夏季发布的 Mistral Large 2 和 9 月份推出的首个多模态模型 Pixtral 12-B。Mistral AI CEO 表示:“为了创造最佳的 AI 体验,我们需要共同设计模型和产品界面。Pixtral 在训练时就考虑到了高影响力的前端应用,是一个很好的例子。”

Pixtral Large 包含一个 1230 亿参数的解码器和一个 10 亿参数的视觉编码器,使其在文本和视觉数据处理方面表现出色。该模型的上下文窗口为 128K,能够处理 30 张高分辨率图像或约 300 页的书籍,与 OpenAI 的 GPT 系列模型相当。在性能方面,Pixtral Large 在多个基准测试中展现了卓越的表现,例如在 MathVista、DocVQA 和 VQAv2 等基准上,其准确率和性能均领先于其他模型。

具体来说,Pixtral Large 在 MathVista 基准上的准确率达到 69.4%,超过了所有其他模型。在 ChartQA 和 DocVQA 基准上,Pixtral Large 也超越了 GPT-4o 和 Gemini-1.5 Pro。此外,Pixtral Large 在 MM-MT-Bench 上的表现也非常出色,优于 Claude-3.5 Sonnet(新版)、Gemini-1.5 Pro 和 GPT-4o(最新版)。

Pixtral Large 在图像理解方面同样表现出色。例如,上传一张账单并询问模型:“我买了咖啡和香肠,外加 18% 的小费。我该付多少钱?”Pixtral Large 会详细计算咖啡和香肠的费用,加上 18% 的小费,最终给出总金额。此外,Pixtral Large 还能准确分析图表。例如,对于训练损失曲线图,询问模型“dark dragon 模型什么时候开始出现问题”,Pixtral Large 会准确指出问题出现在 10,000 步时,并描述后续的不稳定性。

除了 Pixtral Large,Mistral AI 的文本模型 Mistral Large 也进行了更新。该模型在 API 上以 pixtral-large-latest 的形式提供,在 HuggingFace 上以 Mistral Large 24.11 的形式提供。Mistral Large 24.11 将首先在 Google Cloud 和 Microsoft Azure 上推出,预计一周内即可使用。模型和权重下载地址:https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411/tree/main 试用地址:https://chat.mistral.ai/chat

对标 ChatGPT 大升级:le Chat 已经强得可怕

随着 Pixtral Large 的发布,le Chat 的能力也得到了显著提升。现在,le Chat 可以处理大型、复杂的 PDF 文档和图像,例如理论文献中的图形、表格、图表、文本、公式和方程式。以下是一个示例,展示了 le Chat 如何提取、总结和理解爱因斯坦、波多尔斯基和罗森于 1935 年撰写的著名量子纠缠论文的信息。

此外,le Chat 还新增了两项重要功能:实时网络搜索和新的 Canvas 界面。实时网络搜索功能提升了 le Chat 的生产力,特别适合学生和专业人士在学习、研究和工作中使用。例如,一位营销专业人士可以使用 le Chat 评估医疗保健人工智能市场。

新的 Canvas 界面则允许用户在对话中进行临时构思,弹出到 le Chat 窗口中,与 Mistral LLM 合作完成共享输出。这意味着用户可以创建文档、演示文稿、代码和模型等,而无需重新生成回复、版本控制草稿或预览设计。例如,一个产品团队可以使用 Canvas 创建产品指标仪表板的反应模型。

Mistral AI 还与 Black Forest Labs 达成了合作,使 le Chat 具备高质量的图像生成能力。如果您想立即体验 Mistral AI 的最新功能,包括搜索、PDF 上传、编码和图像生成等,请访问:http://chat.mistral.ai/

本文来源: 机器之心【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...