标签:多模态AI
谷歌Gemini实时人工智能视频功能结合Project Astra与多模态AI技术,提升智能手机摄像头的拍摄体验
随着科技的快速发展,人工智能技术正在不断革新我们的日常生活。近日,谷歌公司宣布了一项全新的功能升级,引发了广泛关注。根据IT之家3月24日的报道,谷歌发言人亚历克斯・约瑟夫在一封发给The Verge的邮件中确认,谷歌已经开始为Gemini Live引入新一代的人工智能技术。这项技术的核心亮点在于,它能够通过用户的智能手机摄像头实时捕捉屏幕,并提供与画面相关的即时解答。 这一新功能的推出距离谷歌首次展示“阿斯特拉项目”(Project Astra)已经接近一年。回顾去年5月举行的2024年I/O开发者大会,谷歌展示了基于Gemini模...
微软开源多模态AI Agent基础模型Magma:推动心理预测、自动驾驶、智能家居和医疗诊断的智能化发展
微软发布多模态AI Agent基础模型Magma,引领未来智能技术 2023年2月25日,微软在其官方网站上宣布开源了一款全新的多模态AI Agent基础模型——Magma。这款模型的推出标志着AI技术在跨数字和物理世界的应用中迈出了重要的一步。与传统的Agent不同,Magma不仅能够处理图像、视频和文本等多种类型的数据,还具备强大的心理预测功能,使其在未来视频帧中的时空动态理解方面表现出色。 Magma的多模态能力 Magma的最大亮点在于其多模态能力,它可以在数字和物理世界之间无缝切换,自动处理各种数据类型。无论是静态图片还是动态...
聚焦AI初创公司:OpenAI前高管创立Thinking Machines Lab,打造安全多模态AI,团队近半成员来自前东家
新兴AI初创公司Thinking Machines Lab的崛起与愿景 2023年2月19日,据快科技报道,前OpenAI首席技术官Mira Murati携手多位OpenAI前高管,共同创立了新的AI初创公司——Thinking Machines Lab。该公司迅速汇聚了一批顶尖人才,核心团队成员包括:创始人兼CEO Mira Murati(前OpenAI首席技术官)、首席科学家John Schulman(OpenAI联合创始人)、首席技术官Barret Zoph(前OpenAI研究副总裁)以及安全负责人Lilian Weng(前OpenAI安全副总裁)。尤为引人注目的是,Thinking Machines Lab的近30名精英员工中,超过12位成员均来自...
CNBC报道:百度计划今年推出集成多模态AI技术的下一代Ernie 5.0模型,挑战DeepSeek与ChatGPT
百度计划发布下一代人工智能模型,提升多模态能力 据鞭牛士报道,2月12日消息,CNBC援引知情人士透露,百度计划在2024年下半年推出其最新的Ernie 5.0基础模型。这款新模型将大幅增强多模态能力,能够处理文本、视频、图像和音频,并实现跨类别转换。这意味着它不仅可以在不同形式的之间进行转换,还能用自然语言与用户互动,执行广泛的任务,如生成文本和图像。 中国公司竞相开发创新AI模型,成本大幅降低 在中国,各大科技公司正积极开发创新的人工智能模型,以应对来自美国公司的竞争。1月底,杭州初创公司DeepSeek发...
为什么我们对2025年的AI市场和具身智能、多模态AI、生产力工具及Agent技术极度乐观?
我对当前的AI市场和明年的前景充满信心,认为2024年将是AI领域的一个重要转折点。我发现市场上存在过度悲观的情绪,这正是我决定撰写这篇文章的原因。让我们直接进入主题,回顾一下这两年AI领域的变化。 2023年:AI浪潮初现 2023年,AI技术迅速崛起,吸引了大量互联网从业者和美元基金的关注。这一波AI热潮与之前的互联网创业潮有诸多相似之处,尤其是在机会稀缺的情况下,许多人急于抓住这个新风口。然而,随着市场的逐渐冷静,一些问题也浮出水面。许多初创企业估值过高,而实际收入却寥寥无几。大模型公司成为投资热点...
高通骁龙8 Elite携手AI技术,小米15与荣耀新机强势登场,能效比与多模态AI全面升级
高通发布新一代旗舰芯片,AI成最大亮点 智东西夏威夷10月21日现场报道,高通公司正式发布了新一代旗舰手机SoC骁龙8 Elite和第二代高通Oryon CPU。高通总裁兼CEO克里斯蒂亚诺·安蒙在开场演讲中多次强调“AI”的重要性,骁龙8 Elite的AI升级成为一大亮点。 骁龙8 Elite:AI与性能的双重突破 骁龙8 Elite的中文名为骁龙8至尊版,其搭载了全新的Hexagon NPU,支持端侧多模态,处理能力大幅提升。此外,高通宣布与腾讯混元和智谱合作,腾讯混元大模型7B和3B版本以及智谱的GLM-4V端侧视觉大模型将在搭载骁龙8 Elite的手机上实现...
苹果公司震撼发布300亿参数多模态AI大模型MM1.5:卓越的图像识别与自然语言推理能力引领科技新潮流
近日,苹果公司推出了一款名为MM1.5的多模态AI大模型,参数规模达到了惊人的300亿。这款模型基于前一代MM1的架构进行了全面升级,并且已经在Hugging Face平台上发布了相关文档。 MM1.5模型在数据驱动的原则下进行了训练,重点研究了在不同训练周期中混合多种数据对模型性能的影响。该模型提供了一系列不同的参数规模选项,从10亿到300亿不等,具备强大的图像识别和自然语言推理能力。 在MM1.5的新版本中,苹果的研发团队改进了数据混合策略,显著提升了模型在多文本图像理解、视觉引用与定位以及多图像推理等方面的表现。...
彩讯股份:已将多模态AI技术广泛应用于内部经营管理和外部业务的创作生产中
彩讯股份于2月21日透露,在对AI技术持续关注与研究的基础上,企业已广泛应用多模态AI于内外部业务的运营及内容创新上。借助Transformer结构的大型语言模型进行文本生成,利用图文结合模型实现图生文的应用,并运用扩散模型构建图像生成系统。此外,公司还在深入挖掘多模态AI技术的潜在应用,特别是在数字人领域,通过深度学习驱动的3D建模、动画设计以及语音合成就技术,打造更生动、智慧且具有高度交互性的虚拟形象,将其成功落地到客户服务、教育培训、日常办公等多个场景之中。