标签:图像推理

融合ChatGPT+DALLE3,贾佳亚团队新作开源:识图推理生图一站解决

贾佳亚团队的最新开源项目Mini-Gemini结合了ChatGPT和DALL·E 3的功能,提供了一站式的图像推理和生成解决方案。这款多模态模型在多个指标上表现出色,甚至可与商业闭源模型相媲美。Mini-Gemini支持高清图像处理,能进行精确理解、图像解析推理,以及生成相关图像。其Demo展示出的性能令网友赞叹,能进行手把手的教学、识别图像元素并提供建议,还能通过多轮对话生成连环故事。 Mini-Gemini的核心技术包括高清图像的双编码器机制、高质量训练数据和生成模型数据拓展。它使用Transformer的Attention机制,结合ViT和卷积网络,...