标签:多模态大模型

OpenBMB的MiniCPM-V2.6:一款国内领先的多模态大模型,超越GPT-4V,集OCR识别与视频理解于一体,已获超9000颗星认可

国内知名的开源社区OpenBMB近期推出了其最新研发的开源多模态大模型——MiniCPM-V2.6。这款模型拥有80亿参数,在单图像、多图像以及视频理解等方面的表现超越了GPT-4V;尤其在单图像理解上,其效果优于GPT-4o mini、Gemini1.5Pro 与 Claude3.5Sonnet 等同类模型。MiniCPM-V2.6不仅显著降低了模型的内存占用,还提高了推理效率,并且首次实现了在iPad等移动端设备上进行实时视频理解。 MiniCPM-V2.6基于SigLip-400M和阿里云的Qwen2-7B模型进行开发,相较于之前的版本V2.5,性能有了显著提升,并新增了多图像和视频理解的功能。...

利用多模态大模型与JEST算法:谷歌新数据筛选方法使效率飙升13倍,算力成本骤降10倍

多模态大模型与数据需求挑战 随着GPT-4o、Gemini等多模态大模型的兴起,对训练数据的需求急剧增长。无论是自然语言处理、计算机视觉还是语音识别领域,高质量标注数据集对于提升模型性能至关重要。然而,当前的数据处理流程往往依赖人工筛选,这一过程不仅耗时耗力,而且成本高昂,难以满足大规模数据集的需求。 JEST:革新数据筛选技术 为了解决上述问题,谷歌DeepMind的研究团队开发了一种名为JEST的新算法,该算法通过智能选择数据批次来加速多模态大模型的学习效率。与现有技术相比,JEST能够将数据筛选效率提升13倍...

AI实时语音与GPT-4o:RTC技术如何影响OpenAI的情感分析及多模态大模型延迟问题

在人工智能领域,OpenAI的最新模型GPT-4o以其高效能和低延迟引起了关注,尤其是在实时语音互动方面,达到了与人类对话相当的速度。然而,尽管发布会展示了令人惊叹的技术,但在产品落地过程中,诸如GPT-4o的实时音视频功能和视频多模态产品Sora的开放仍面临延迟。这种现象不仅困扰OpenAI,国内的类似项目也面临同样的问题。尽管实时语音被认为是AI商业化的重要路径,但现有的技术如Pi和Call Annie存在高延迟和情感理解不足的问题。新产品EVI通过引入语义空间理论来改进情感表达,但牺牲了响应时间。GPT-4o的多模态技术则显著...