马斯克 xAI 展示首个多模态模型 Grok-1.5V：可将流程图转成 Python 代码

在科技巨头马斯克的支持下，人工智能公司xAI近期持续创新，继Grok-1.5大语言模型后，又推出了全新的多模态模型——Grok-1.5 Vision (Grok-1.5V)。这款先进模型不仅能够理解文本信息，还能解析文档、图表、截图和照片，拓宽了人工智能处理数据的边界。

xAI宣布即将邀请早期用户与Grok现有用户参与Grok-1.5V的测试，展示其强大的多学科推理能力和文档理解力。从官方发布的实例来看，Grok-1.5V能将流程图转化为Python代码，根据儿童画作创作故事，解析流行语，甚至将表格转换为CSV格式，应用范围广泛且功能强大。

在RealWorldQA基准测试中，Grok-1.5V超越了GPT-4V、Claude 3Sonnet、Claude 3 Opus和Gemini Pro 1.5等市场主流竞争对手，展现出卓越的性能。这一突破性的技术进展预示着未来AI在多模态理解和处理方面的无限可能。

1. xAI发布Grok-1.5 Vision多模态模型
2. Grok-1.5V能理解文本和图像信息，涵盖文档、图表、截图和照片
3. 早期测试者和Grok用户将受邀体验Grok-1.5V的强大功能
4. 案例展示包括流程图转Python代码、绘画生成故事、解释流行语、表格转CSV
5. Grok-1.5V在RealWorldQA基准测试中优于主要竞品

本文来源：