融合ChatGPT+DALLE3,贾佳亚团队新作开源:识图推理生图一站解决

贾佳亚团队的最新开源项目Mini-Gemini结合了ChatGPTDALL·E 3的功能,提供了一站式的图像推理和生成解决方案。这款多模态模型在多个指标上表现出色,甚至可与商业闭源模型相媲美。Mini-Gemini支持高清图像处理,能进行精确理解、图像解析推理,以及生成相关图像。其Demo展示出的性能令网友赞叹,能进行手把手的教学、识别图像元素并提供建议,还能通过多轮对话生成连环故事。

Mini-Gemini的核心技术包括高清图像的双编码器机制、高质量训练数据和生成模型数据拓展。它使用Transformer的Attention机制,结合ViT和卷积网络,有效处理高清图像。此外,通过优化数据集和引入生成模型训练,Mini-Gemini在理解、推理和生成方面展现出强大能力。

该模型提供了不同规模的版本,从2B到34B参数量,且在多个排行榜上成绩优异,超越了一些大型模型。Mini-Gemini的在线Demo允许用户与模型进行交互,只需上传图片或输入文字即可开始对话。所有代码、模型和数据已在GitHub、Hugging Face等平台开源。

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...