标签:多模态大模型
AI超级框——阿里巴巴在3月13日正式宣布推出其全新的AI旗舰应用——新夸克
这款应用依托阿里通义领先的推理和多模态大模型技术,全面升级为一个功能强大的“AI超级框”,旨在为2亿用户提供更加智能化的服务。阿里巴巴表示,未来通义系列的所有最新成果都将优先接入夸克。 新夸克将彻底告别传统的搜索模式,转型为一个All in One的“AI超级框”,能够满足用户在工作、学习和生活中的各种AI需求。与市场上主流的Chatbot不同,夸克致力于整合AI对话、深度思考、深度搜索、深度研究和深度执行等功能,通过一个极简的界面满足用户的全方位需求。 用户只需在“AI超级框”中输入指令,夸克智能中枢便会自动识别...
谷歌DeepMind为Gemini Robotics打造先进机器人模型,融合空间推理与多模态大模型理解物理世界
随着人工智能技术的飞速发展,机器人领域也在不断取得突破。近日,谷歌DeepMind推出两款基于Gemini 2.0的机器人模型:Gemini Robotics和Gemini Robotics-ER。这两款模型在机器人任务执行、环境感知以及物理世界理解等方面表现出色。 一、Gemini Robotics:多场景适配与灵活操作 Gemini Robotics是一款具备通用性和交互性的机器人模型,其主要特点包括以下几点: 1. 通用性 Gemini Robotics依托于Gemini 2.0的强大世界理解能力,能够快速适应各种新环境和任务。无论是在家庭、办公室还是工厂等不同场景中,该模型都能迅速调...
杭州AI开源领域再创佳绩!阿里Qwen除夕重磅推出视觉理解模型新旗舰,涵盖多模态大模型全系列三种尺寸,7B参数量超越GPT-40-mini,尤其在视频理解能力方面表现卓越,引领行业创新潮流。
杭州领跑AI开源:阿里Qwen除夕发布视觉理解新旗舰模型 杭州在人工智能领域再次展现出强大的创新实力。2025年1月28日凌晨4点,阿里巴巴通义团队发布了全新视觉理解模型Qwen2.5-VL,并宣布全面开源。这款模型不仅支持视觉理解、Agent操作、长视频理解等功能,还推出了3B、7B和72B三种参数规模的版本。 官方测试结果显示,Qwen2.5-VL系列中的7B模型(Qwen2.5-VL-7B-Instruct)在多个任务中超越了GPT-4o-mini,而72B版本则在一系列涵盖多个领域的基准测试中表现出色,包括大学水平的问题解答、数学推理、文档理解等。 此外,Q...
AI行业持续催化,机构看好人工智能指数及多模态大模型带来的高景气度行情
AI行业事件频发,板块个股表现亮眼 近期,AI行业内一系列重要事件不断涌现,推动相关板块内的个股持续活跃。根据Wind数据统计,自9月以来,人工智能指数累计涨幅达到了70.07%。在此期间,多只个股涨幅显著,如天玑科技、海天瑞声、高伟达和寒武纪-U等股票的涨幅均超过了150%,充分展示了市场对AI领域的高度关注与认可。 多模态大模型及Agent迭代加速商业化进程 分析人士指出,随着多模态大模型和Agent技术的持续迭代升级,以及AI硬件产品的不断推出,AI应用的商业化进程将进一步加快。这不仅有助于提升AI产业链的整体竞...
清华大学DeeR-VLA框架助力多模态大模型动态推理,大幅降低机器人智能开发中的LLM内存开销4-6倍,打破实验室应用瓶颈。
清华大学新框架DeeR-VLA助力具身智能走出实验室,大幅降低LLM内存开销 来源:量子位 发布日期:2024年11月30日 计算和存储开销问题迎刃而解 来自清华大学的研究团队设计了一种名为DeeR-VLA的新框架,专门用于优化视觉-语言-动作模型(VLA)的计算和内存开销。该框架通过“动态推理”机制,将大语言模型(LLM)的计算和内存开销平均降低了4-6倍。 动态推理机制详解 DeeR-VLA的工作原理类似于人类的决策系统:对于简单的任务,模型会快速做出决策;而对于复杂的任务,则会进行更深入的思考。通过多出口架构,模型可以在...
利用国产AI跃问,我的新iPhone 16 Pro实现多模态大模型的AI拍照提问功能,体验科技自由。
上个周末,我参加了《球3》剧组的会议。由于我去年5月购买的笔记本电脑出现了无法修复的问题,导致我在会议中遇到了不少尴尬的情况。这台电脑本来就很重,携带出门就已经很不便,而这次屏幕竟然彻底坏了,尽管能开机并连接外部显示器使用,但自身的屏幕始终是黑屏状态。在演示AI技术时,屏幕问题让我十分难堪。 回到家中,我立刻决定更换一台新的笔记本电脑。经过一番考虑,我选择了Macbook Air作为出差专用设备,而旧电脑则留在家中作为台式机使用。时隔两年,我再次回到了Mac的怀抱。然而,人的心理有时就是这样矛盾。用...
OpenBMB的MiniCPM-V2.6:一款国内领先的多模态大模型,超越GPT-4V,集OCR识别与视频理解于一体,已获超9000颗星认可
国内知名的开源社区OpenBMB近期推出了其最新研发的开源多模态大模型——MiniCPM-V2.6。这款模型拥有80亿参数,在单图像、多图像以及视频理解等方面的表现超越了GPT-4V;尤其在单图像理解上,其效果优于GPT-4o mini、Gemini1.5Pro 与 Claude3.5Sonnet 等同类模型。MiniCPM-V2.6不仅显著降低了模型的内存占用,还提高了推理效率,并且首次实现了在iPad等移动端设备上进行实时视频理解。 MiniCPM-V2.6基于SigLip-400M和阿里云的Qwen2-7B模型进行开发,相较于之前的版本V2.5,性能有了显著提升,并新增了多图像和视频理解的功能。...
利用多模态大模型与JEST算法:谷歌新数据筛选方法使效率飙升13倍,算力成本骤降10倍
多模态大模型与数据需求挑战 随着GPT-4o、Gemini等多模态大模型的兴起,对训练数据的需求急剧增长。无论是自然语言处理、计算机视觉还是语音识别领域,高质量标注数据集对于提升模型性能至关重要。然而,当前的数据处理流程往往依赖人工筛选,这一过程不仅耗时耗力,而且成本高昂,难以满足大规模数据集的需求。 JEST:革新数据筛选技术 为了解决上述问题,谷歌DeepMind的研究团队开发了一种名为JEST的新算法,该算法通过智能选择数据批次来加速多模态大模型的学习效率。与现有技术相比,JEST能够将数据筛选效率提升13倍...
AI实时语音与GPT-4o:RTC技术如何影响OpenAI的情感分析及多模态大模型延迟问题
在人工智能领域,OpenAI的最新模型GPT-4o以其高效能和低延迟引起了关注,尤其是在实时语音互动方面,达到了与人类对话相当的速度。然而,尽管发布会展示了令人惊叹的技术,但在产品落地过程中,诸如GPT-4o的实时音视频功能和视频多模态产品Sora的开放仍面临延迟。这种现象不仅困扰OpenAI,国内的类似项目也面临同样的问题。尽管实时语音被认为是AI商业化的重要路径,但现有的技术如Pi和Call Annie存在高延迟和情感理解不足的问题。新产品EVI通过引入语义空间理论来改进情感表达,但牺牲了响应时间。GPT-4o的多模态技术则显著...