融合ChatGPT+DALLE3，贾佳亚团队新作开源：识图推理生图一站解决

贾佳亚团队的最新开源项目Mini-Gemini结合了ChatGPT和DALL·E 3的功能，提供了一站式的图像推理和生成解决方案。这款多模态模型在多个指标上表现出色，甚至可与商业闭源模型相媲美。Mini-Gemini支持高清图像处理，能进行精确理解、图像解析推理，以及生成相关图像。其Demo展示出的性能令网友赞叹，能进行手把手的教学、识别图像元素并提供建议，还能通过多轮对话生成连环故事。

Mini-Gemini的核心技术包括高清图像的双编码器机制、高质量训练数据和生成模型数据拓展。它使用Transformer的Attention机制，结合ViT和卷积网络，有效处理高清图像。此外，通过优化数据集和引入生成模型训练，Mini-Gemini在理解、推理和生成方面展现出强大能力。

该模型提供了不同规模的版本，从2B到34B参数量，且在多个排行榜上成绩优异，超越了一些大型模型。Mini-Gemini的在线Demo允许用户与模型进行交互，只需上传图片或输入文字即可开始对话。所有代码、模型和数据已在GitHub、Hugging Face等平台开源。

本文来源：

量子位【阅读原文】

# 每日AI快讯 # ChatGPT # DALL·E 3 # Mini-Gemini # 图像推理 # 生成模型

文章版权归作者所有，未经允许请勿转载。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

融合ChatGPT+DALLE3，贾佳亚团队新作开源：识图推理生图一站解决

除了唱歌，AI还能替你演出？又一AI公司将虚拟人推到新高度

印度具备生成式AI技能的技术人员工资增长 30-50%

相关文章

暂无评论

AI最新资讯