标签：多模态任务

谷歌推出最具价格优势的 Gemini 1.5 Flash 8B AI 模型：多模态任务处理能力出色，商用价格低至0.15美元每百万tokens

IT之家 10 月 5 日报道，根据科技媒体 NeoWin 昨天（10 月 4 日）发布的文章，谷歌公司即将推出 Gemini 1.5 Flash 8B 模型，并将其商用化。这款模型将成为谷歌公司最经济实惠的人工智能产品之一。早在今年 8 月，IT之家就曾报道过谷歌推出了三款 Gemini 实验性模型。其中，Gemini 1.5 Flash 8B 是一个较小版本的 Gemini 1.5 Flash 模型，拥有 80 亿参数。该模型专为多模态任务设计，能够处理大量数据和长文本摘要任务。与原版相比，Gemini 1.5 Flash 8B 在延迟方面有所降低，非常适合聊天、转录以及长文本翻译等任务。 Ge...

来源：

IT之家【阅读原文】
Tags：Gemini 1.5 Flash 8B 人工智能价格优势多模态任务谷歌

6个月前

OpenAI的GPT-4o mini模型迎来成本革命：性能优化成就多模态任务，价格骤降99%！清华同济精英助力GPT-3.5退役

OpenAI近期推出了全新的GPT-4o mini模型，标志着其正式进入小模型领域。这款模型在性能上超越GPT-3.5，且价格更为亲民，每百万输入token仅15美分，降低了99%的模型成本。CEO Sam Altman感叹，智能成本的下降将带来重大变革。GPT-4o mini的知识更新至去年10月，支持多种语言和128k上下文窗口。尽管参数规模未公开，但官方表示它是目前最具经济效益的小模型。此外，它在LMSYS排行榜上甚至超越了GPT-4，在多模态任务上展现出色性能。GPT-4o mini支持文本和视觉输入/输出，未来还将扩展到视频和音频。它的性价比远超同类小模型...

来源：

新智元公众号【阅读原文】
Tags：GPT-4o mini OpenAI 多模态任务性能优化模型成本

8个月前

37项SOTA！全模态预训练范式MiCo：理解任何模态并学习通用表示

港中文和中科院的研究团队推出了全新的全模态预训练模型——MiCo，旨在理解和学习通用表示，支持10种模态及25种跨模态任务。MiCo克服了传统模型在多模态理解上的局限，如图文预训练导致的错位和偏见问题。研究者受到多媒体学习理论的启发，将模态分为“知识模态”和“接口模态”，设计了双分支架构，通过创新的生成推理方法对齐不同模态。 MiCo采用多模态上下文强化不同模态间的关联，构建跨越模态的上下文关系，实现更全面的理解。实验结果显示，MiCo在多个单模态感知、跨模态检索、问答和多模态大模型基准上取得37项SOTA性能。

来源：

量子位【阅读原文】
Tags：MiCo模型上下文关系对齐全模态预训练多模态任务跨模态理解

10个月前