标签:多模态

百度多模态技术深度解析:iRAG技术与数字人如何解决幻觉问题?

不做Sora的背后:百度的多模态路线是什么? 李彦宏在百度世界大会上表示:“我们非常非常看好多模态。” 当ChatGPT在国内引发“百模大战”时,百度率先推出了文心一言。然而,随着Sora掀起视频生成的热潮,李彦宏却在内部讲话中明确表示“Sora无论多么火,百度都不会去做”。这一决定引发了广泛的困惑和争议。 在百度世界大会的会后采访中,李彦宏对此进行了公开回应,不仅重申了不做Sora的决定,还详细解释了百度如何运用和发展多模态技术。他特别提到了百度从年初开始重点攻克的iRAG技术,这项技术旨在解决AI领域最棘手的“幻觉...

对话李彦宏:大模型进化放缓对人工智能应用开发是好事,百度工程方法独树一帜未对标OpenAI

2024年11月12日,在“百度世界大会”期间,百度创始人、CEO李彦宏与硅星人创始人骆轶航、甲子光年创始人张一甲进行了一场对谈。以下是对话实录: 1. 为什么“应用来了”? 张一甲:过去一两年,人工智能是全行业非常火的赛道和技术方向,每天我们都能看到许多新产品和技术的进展。今年世界大会的主题定为“应用来了”,这是为什么? 李彦宏:从去年开始,我一直强调模型本身不直接产生价值,只有在模型基础上开发各种应用,找到所谓的PMF(Product-Market Fit),才能真正产生价值。2023年,大家还在卷模型,让模型能力逐步达到...

揭示提升效率的秘密:运用Gemini结合谷歌AI模型,探索多模态个人顾问的7个实用技巧

一、洞察流行趋势 Gemini 是谷歌推出的一款多模态AI模型,能够处理文本、图像、音频、视频和代码等多种信息。基于Gemini大语言模型,谷歌还开发了一款名为Gemini AI的聊天机器人。尽管Gemini具有强大的语言理解和生成能力,但如果用户提供的提示不够准确,可能会导致结果不尽人意。为了帮助用户更高效地使用Gemini,外媒总结了7个常用功能及其提示技巧。例如,Gemini能够实时搜索互联网以帮助用户了解最新的流行趋势。它不仅能分析文字中的热点话题,还能通过图像和视频捕捉视觉上的流行元素。如果用户想了解最新的TikTok舞...

Meta与OpenAI的对决:AI开源拐点已至? Llama3.1405B引领多模态AI未来 | 智者访谈

近期,Meta发布了Llama3.1405B,这款开放权重的大模型性能首次媲美顶级封闭模型,标志着AI行业进入了一个重要的转折点。扎克伯格亲自撰文支持“开源AI即未来”的观点,再次引发开源与封闭的讨论。本文采访了AI开源生态专家黄之鹏,探讨AI开源的现状与未来。 开源与封闭的博弈 - OpenAI的转变:早期OpenAI遵循非营利模式,开源GPT-1和GPT-2。但在2019年微软注资后,转为商业实体,从GPT-3开始转向闭源。 - 安全与商业考量:尽管官方声称闭源是为了安全,但实际上更多出于商业竞争的考虑。 Google与Meta的战略 - Google的...

Meta Llama 3-405B:史上最强大开源AI模型,扎克伯格力推,多模态参数高达4050亿,7月23日震撼发布

在科技领域的一次重大突破中,Meta 公司即将于 7 月 23 日揭开其最新的开源人工智能模型——Llama 3-405B 的神秘面纱。据The Information报道,这款AI模型是基于内部员工的爆料而曝光的,它将加入已有的80亿和700亿参数版本,带来一个前所未有的4050亿参数版本,被赞誉为最强大的开源大型语言模型。Meta首席执行官马克·扎克伯格在4月份推出Llama 3时曾提及这个4050亿参数的模型,但并未提供详细细节。 Llama 3-405B 不仅仅是一个语言模型,它具备多模态能力,能够理解和处理图像、文本等多种媒体形式的内容,拓宽了人工智能的...

多模态遥感大模型的探索与实践,蚂蚁集团遥感大模型负责人王剑带来深度解读

2024年世界人工智能大会(WAIC)云帆奖暨人工智能青年论坛在上海成功举办,吸引了全球顶尖高校和企业的青年AI人才参与。蚂蚁集团遥感大模型负责人王剑在会上发表了关于“多模态遥感大模型的探索与实践”的演讲。他介绍了蚂蚁集团的20亿参数遥感模型SkySense,该模型在遥感任务中表现出色,并有开源计划。SkySense在土地监测、地物变化检测等多个领域取得第一,并在农村金融和环保应用中展现潜力。 王剑强调,大模型的创新应用应深入各行各业,以释放AI的真正价值。蚂蚁集团建立了强大的算力系统,并研发了安全可靠的大模型,如...

兴高采烈下载了满屏AI助手,我尝鲜了一下就没再打开

随着技术的发展,人工智能(AI)大模型正逐渐普及,使得不懂编程的普通人也能轻松使用。智能手机应用程序商店中涌现出各类“智能助手”产品,如文心一言、通义、Kimi、海螺AI、豆包和元宝等,它们以大模型为基础,整合多种AI功能,提供自然语言处理的服务,包括AI搜索、文档处理、问答、写作和图像生成等。这些助手通过手机APP提供便利,用户可以通过自然语言与之交互,解决日常生活和工作中的问题。 腾讯的“元宝”因其与微信搜一搜的整合,能在时新信息搜索方面表现出色。而信息源的质量对AI的回答质量有很大影响,高质量的内...

OpenAI大模型上新,自然人机交互迈出重要步伐

OpenAI在其春季发布会上推出了创新的GPT-4o模型,引领人工智能大模型的新潮流。这款全新的“全能”模型能够处理文本、视觉和音频信息,大大提升了交互速度和用户体验。GPT-4o的反应时间与人类相当,只需232至320毫秒,显著提高了效率,并降低了50%的推理成本,为商业应用开辟了更多可能性,特别是在智能手机和个人电脑等设备上的端侧应用。 然而,大模型的技术迭代似乎正在放缓,OpenAI未发布期待中的GPT-5,引发了对技术瓶颈的猜测。同时,GPT-4o仍存在幻觉问题,有时会产生无法识别的自造字。尽管如此,OpenAI宣布GPT-4o将...

周鸿祎谈对“2024年AI产业发展的十六个趋势”预测

周鸿祎揭示2024年AI发展趋势:从开源大模型到人形机器人 在近日的一加ACE 3V手机发布会上,网络安全专家周鸿祎分享了他对2024年人工智能产业的展望。他预测,AI领域将迎来一系列重大变革,包括: 1. 开源大模型的繁荣,预示着大模型将在各个领域普及。 2. 云端超级大模型将成为大国间AGI竞赛的核心,模型规模将持续扩大。 3. 同时,小型化大模型将嵌入智能设备,赋予终端更多智能。 4. 企业级市场将见证垂直大模型的广泛应用,企业将拥有多个定制模型。 5. 多模态能力将成为大模型的关键,推动AIGC功能如文生图和视频的创...

国产大模型创业一哥:秀商业化,布局Sora,“全线对标OpenAI”

国产大模型公司智谱AI在ChatGLM千亿对话模型发布一周年之际,展示了其在商业化和投资领域的积极进展。智谱AI已获得超25亿元融资,并投资了多家同为清华系的大模型企业。在商业化方面,智谱拥有超过2000家生态合作伙伴,实现了1000多个大模型应用,覆盖传媒、金融等多个领域。张鹏CEO分享了10个商业案例,包括德勤中国、分众传媒等知名企业,通过通用能力和定制化服务推动大模型落地。智谱提供了三种商业化模式:开放平台API、云端私有化和完全私有化,以满足不同客户需求。此外,智谱还布局多模态产品,如文生视频模型CogVid...