标签:多模态任务

谷歌推出最具价格优势的 Gemini 1.5 Flash 8B AI 模型:多模态任务处理能力出色,商用价格低至0.15美元每百万tokens

IT之家 10 月 5 日报道,根据科技媒体 NeoWin 昨天(10 月 4 日)发布的文章,谷歌公司即将推出 Gemini 1.5 Flash 8B 模型,并将其商用化。这款模型将成为谷歌公司最经济实惠的人工智能产品之一。 早在今年 8 月,IT之家就曾报道过谷歌推出了三款 Gemini 实验性模型。其中,Gemini 1.5 Flash 8B 是一个较小版本的 Gemini 1.5 Flash 模型,拥有 80 亿参数。该模型专为多模态任务设计,能够处理大量数据和长文本摘要任务。与原版相比,Gemini 1.5 Flash 8B 在延迟方面有所降低,非常适合聊天、转录以及长文本翻译等任务。 Ge...

OpenAI的GPT-4o mini模型迎来成本革命:性能优化成就多模态任务,价格骤降99%!清华同济精英助力GPT-3.5退役

OpenAI近期推出了全新的GPT-4o mini模型,标志着其正式进入小模型领域。 这款模型在性能上超越GPT-3.5,且价格更为亲民,每百万输入token仅15美分,降低了99%的模型成本。CEO Sam Altman感叹,智能成本的下降将带来重大变革。GPT-4o mini的知识更新至去年10月,支持多种语言和128k上下文窗口。尽管参数规模未公开,但官方表示它是目前最具经济效益的小模型。此外,它在LMSYS排行榜上甚至超越了GPT-4,在多模态任务上展现出色性能。GPT-4o mini支持文本和视觉输入/输出,未来还将扩展到视频和音频。它的性价比远超同类小模型...

37项SOTA!全模态预训练范式MiCo:理解任何模态并学习通用表示

港中文和中科院的研究团队推出了全新的全模态预训练模型——MiCo,旨在理解和学习通用表示,支持10种模态及25种跨模态任务。MiCo克服了传统模型在多模态理解上的局限,如图文预训练导致的错位和偏见问题。研究者受到多媒体学习理论的启发,将模态分为“知识模态”和“接口模态”,设计了双分支架构,通过创新的生成推理方法对齐不同模态。 MiCo采用多模态上下文强化不同模态间的关联,构建跨越模态的上下文关系,实现更全面的理解。实验结果显示,MiCo在多个单模态感知、跨模态检索、问答和多模态大模型基准上取得37项SOTA性能。