标签：多模态AI

谷歌Gemini实时人工智能视频功能结合Project Astra与多模态AI技术，提升智能手机摄像头的拍摄体验

随着科技的快速发展，人工智能技术正在不断革新我们的日常生活。近日，谷歌公司宣布了一项全新的功能升级，引发了广泛关注。根据IT之家3月24日的报道，谷歌发言人亚历克斯・约瑟夫在一封发给The Verge的邮件中确认，谷歌已经开始为Gemini Live引入新一代的人工智能技术。这项技术的核心亮点在于，它能够通过用户的智能手机摄像头实时捕捉屏幕，并提供与画面相关的即时解答。这一新功能的推出距离谷歌首次展示“阿斯特拉项目”（Project Astra）已经接近一年。回顾去年5月举行的2024年I/O开发者大会，谷歌展示了基于Gemini模...

来源：

IT之家【阅读原文】
Tags：Project Astra 人工智能功能多模态AI 智能手机摄像头谷歌Gemini

1周前

微软开源多模态AI Agent基础模型Magma：推动心理预测、自动驾驶、智能家居和医疗诊断的智能化发展

微软发布多模态AI Agent基础模型Magma，引领未来智能技术 2023年2月25日，微软在其官方网站上宣布开源了一款全新的多模态AI Agent基础模型——Magma。这款模型的推出标志着AI技术在跨数字和物理世界的应用中迈出了重要的一步。与传统的Agent不同，Magma不仅能够处理图像、视频和文本等多种类型的数据，还具备强大的心理预测功能，使其在未来视频帧中的时空动态理解方面表现出色。 Magma的多模态能力 Magma的最大亮点在于其多模态能力，它可以在数字和物理世界之间无缝切换，自动处理各种数据类型。无论是静态图片还是动态...

来源：

界面新闻【阅读原文】
Tags：医疗诊断多模态AI 心理预测智能家居自动驾驶

1个月前

聚焦AI初创公司：OpenAI前高管创立Thinking Machines Lab，打造安全多模态AI，团队近半成员来自前东家

新兴AI初创公司Thinking Machines Lab的崛起与愿景 2023年2月19日，据快科技报道，前OpenAI首席技术官Mira Murati携手多位OpenAI前高管，共同创立了新的AI初创公司——Thinking Machines Lab。该公司迅速汇聚了一批顶尖人才，核心团队成员包括：创始人兼CEO Mira Murati（前OpenAI首席技术官）、首席科学家John Schulman（OpenAI联合创始人）、首席技术官Barret Zoph（前OpenAI研究副总裁）以及安全负责人Lilian Weng（前OpenAI安全副总裁）。尤为引人注目的是，Thinking Machines Lab的近30名精英员工中，超过12位成员均来自...

来源：

iFeng科技【阅读原文】
Tags：AI初创公司 OpenAI Thinking Machines Lab 多模态AI 安全AI

1个月前

CNBC报道：百度计划今年推出集成多模态AI技术的下一代Ernie 5.0模型，挑战DeepSeek与ChatGPT

百度计划发布下一代人工智能模型，提升多模态能力据鞭牛士报道，2月12日消息，CNBC援引知情人士透露，百度计划在2024年下半年推出其最新的Ernie 5.0基础模型。这款新模型将大幅增强多模态能力，能够处理文本、视频、图像和音频，并实现跨类别转换。这意味着它不仅可以在不同形式的之间进行转换，还能用自然语言与用户互动，执行广泛的任务，如生成文本和图像。中国公司竞相开发创新AI模型，成本大幅降低在中国，各大科技公司正积极开发创新的人工智能模型，以应对来自美国公司的竞争。1月底，杭州初创公司DeepSeek发...

来源：

iFeng科技【阅读原文】
Tags：ChatGPT DeepSeek Ernie 多模态AI 百度

2个月前

为什么我们对2025年的AI市场和具身智能、多模态AI、生产力工具及Agent技术极度乐观？

我对当前的AI市场和明年的前景充满信心，认为2024年将是AI领域的一个重要转折点。我发现市场上存在过度悲观的情绪，这正是我决定撰写这篇文章的原因。让我们直接进入主题，回顾一下这两年AI领域的变化。 2023年：AI浪潮初现 2023年，AI技术迅速崛起，吸引了大量互联网从业者和美元基金的关注。这一波AI热潮与之前的互联网创业潮有诸多相似之处，尤其是在机会稀缺的情况下，许多人急于抓住这个新风口。然而，随着市场的逐渐冷静，一些问题也浮出水面。许多初创企业估值过高，而实际收入却寥寥无几。大模型公司成为投资热点...

来源：

iFeng科技【阅读原文】
Tags：Agent技术 AI市场具身智能多模态AI 生产力工具

3个月前

高通骁龙8 Elite携手AI技术，小米15与荣耀新机强势登场，能效比与多模态AI全面升级

高通发布新一代旗舰芯片，AI成最大亮点智东西夏威夷10月21日现场报道，高通公司正式发布了新一代旗舰手机SoC骁龙8 Elite和第二代高通Oryon CPU。高通总裁兼CEO克里斯蒂亚诺·安蒙在开场演讲中多次强调“AI”的重要性，骁龙8 Elite的AI升级成为一大亮点。骁龙8 Elite：AI与性能的双重突破骁龙8 Elite的中文名为骁龙8至尊版，其搭载了全新的Hexagon NPU，支持端侧多模态，处理能力大幅提升。此外，高通宣布与腾讯混元和智谱合作，腾讯混元大模型7B和3B版本以及智谱的GLM-4V端侧视觉大模型将在搭载骁龙8 Elite的手机上实现...

来源：

智东西【阅读原文】
Tags：AI技术多模态AI 手机芯片能效比高通骁龙8 Elite

5个月前

苹果公司震撼发布300亿参数多模态AI大模型MM1.5：卓越的图像识别与自然语言推理能力引领科技新潮流

近日，苹果公司推出了一款名为MM1.5的多模态AI大模型，参数规模达到了惊人的300亿。这款模型基于前一代MM1的架构进行了全面升级，并且已经在Hugging Face平台上发布了相关文档。 MM1.5模型在数据驱动的原则下进行了训练，重点研究了在不同训练周期中混合多种数据对模型性能的影响。该模型提供了一系列不同的参数规模选项，从10亿到300亿不等，具备强大的图像识别和自然语言推理能力。在MM1.5的新版本中，苹果的研发团队改进了数据混合策略，显著提升了模型在多文本图像理解、视觉引用与定位以及多图像推理等方面的表现。...

来源：

快科技【阅读原文】
Tags：MM1.5 图像识别多模态AI 自然语言推理苹果公司

6个月前

彩讯股份：已将多模态AI技术广泛应用于内部经营管理和外部业务的创作生产中

彩讯股份于2月21日透露，在对AI技术持续关注与研究的基础上，企业已广泛应用多模态AI于内外部业务的运营及内容创新上。借助Transformer结构的大型语言模型进行文本生成，利用图文结合模型实现图生文的应用，并运用扩散模型构建图像生成系统。此外，公司还在深入挖掘多模态AI技术的潜在应用，特别是在数字人领域，通过深度学习驱动的3D建模、动画设计以及语音合成就技术，打造更生动、智慧且具有高度交互性的虚拟形象，将其成功落地到客户服务、教育培训、日常办公等多个场景之中。

来源：

界面新闻【阅读原文】
Tags：AI技术 Transformer架构多模态AI 数字人深度学习

1年前 (2024)