标签:大语言模型

谷歌 CEO 皮查伊展望 2025 年:面对高风险与大赌注,推广 Gemini 应用成首要任务,推动 AI 发展与大语言模型创新

谷歌 CEO 皮查伊展望 2025:竞争激烈、AI 快速发展与 Gemini 应用的战略布局 据美国媒体 CNBC 报道,谷歌 CEO 桑达尔·皮查伊在上周向公司员工传达了对 2025 年的展望。他表示,这一年将充满挑战和机遇,是谷歌发展的关键节点。面对日益激烈的市场竞争、监管压力以及人工智能(AI)技术的迅猛进步,皮查伊强调了紧迫感的重要性,并呼吁全体员工加快步伐,积极应对变革。 皮查伊指出,“我认为 2025 年将是至关重要的时刻。我们必须深刻认识到当前形势的紧迫性,加速推动技术创新,以解决用户面临的实际问题。”他特别提到了正...

CCF-CV与合合信息联手打造技术分享论坛,深入探讨大语言模型时代的智能向善、人工智能安全治理及图像篡改检测等视觉安全前沿热点

2024年度十大流行语发布:“智能向善”引领AI治理新方向 近日,《咬文嚼字》杂志公布了2024年度十大流行语,“智能向善”榜上有名。在过去的一年中,深度伪造和AI诈骗等事件频繁成为热点话题,引发了公众对AI技术“野蛮生长”的担忧。为了应对这些挑战,全国网络安全标准化技术委员会于今年9月发布了《人工智能安全治理框架》,强调了AI技术面临的内外部风险,包括技术缺陷、不当使用和恶意利用。 《打造大模型时代的可信AI》论坛成功举办 为探讨AI安全治理的有效路径,由中国计算机学会计算机视觉专委会主办,合合信息承办,...

AI搜索与大语言模型:技术革新与商业模式的双面棋局,挑战小红书的搜索引擎与广告模式

大模型的更新速度让人叹为观止。从技术突破到全面商业化的进程中,AI搜索成为了大模型面向消费者市场的最佳应用场景之一:它不仅引领了语言大模型的发展潮流,还满足了用户对高效信息获取的需求。特别是在中国,拥有10.92亿网民和8.27亿搜索引擎用户的巨大市场中(根据CNNIC 2023年的数据),AI搜索正处于流量爆发的中心。 然而,这只是开始。传统的搜索引擎依赖于关键词匹配的方式,通过索引网页并根据搜索词的相关性排列结果。这种方式存在诸多问题,如信息过载、相关性低、广告干扰、质量不一、时效性差、个性化不足、交...

利用大语言模型进行中文简短问答的真实性评估:RAG策略下的对齐代价分析——OpenAI o1与豆包的表现对比及其它模型的挑战

中文简短问答:评估大语言模型中文真实性能力的新基准 引言 随着人工智能技术的迅猛发展,确保语言模型生成的真实性成为了一项重要挑战。目前,尽管前沿的大语言模型(LLM)在许多任务上表现出色,但它们有时会产生错误或缺乏证据支持的输出,这被称为“幻觉”问题。这种问题严重限制了大语言模型在实际应用中的广泛使用。因此,评估大语言模型的真实性能力变得尤为重要。 新的评估基准 近日,淘宝天猫集团的研究者们提出了一种新的中文简短问答(Chinese SimpleQA)基准,这是首个全面评估大语言模型中文真实性能力的基准...

国内AI搜索新高度:天工AI与大语言模型助力金融投资与科研学术,免费体验

老牌搜索巨头面临挑战,AI搜索战火重燃 近日,谷歌、微软等老牌搜索巨头们感受到了前所未有的压力。Meta 被曝出正在开发 AI 搜索引擎,以减少对谷歌和微软在 AI 实时摘要生成中的依赖。与此同时,ChatGPT 完成了向 AI 搜索的升级,用户可以通过网络资源链接快速获取实时搜索结果。OpenAI CEO 奥特曼表示,「一旦使用,你就会回不去」。这些动作再次证明了大模型重塑搜索引擎的巨大潜力。 搜索引擎与 AI 的融合加速 近年来,以 GPT 为代表的大语言模型推动了搜索范式的转变。无论是谷歌、微软在原有搜索产品上的 AI 能力...

OpenAI-o1思考替代法热度攀升!焦剑涛高徒一作提出思考偏好优化,利用大语言模型如Llama 3 8B Instruct与AlpacaEval,拓展推理任务边界——天浩吴的创新研究

OpenAI-o1思考替代法引发关注,华人学者提出思考偏好优化方法 近期,一项新的研究引起了广泛关注,该研究提出了一种名为“思考偏好优化”(Thought Preference Optimization, TPO)的方法,旨在使大型语言模型(LLM)能够根据任务的复杂度进行不同程度的“思考”,从而提高其输出质量。这一方法不仅适用于逻辑和数学推理任务,还能应用于一般的问答场景。 研究背景与意义 这项研究由华人学者Tianhao Wu及其导师焦剑涛等人共同完成。焦剑涛曾是2011年清华大学特等奖学金获得者。研究团队提出了一种新的训练方法,通过在模型中...

西湖大学推出「AI科学家」Nova大模型,大幅提升科研效率与跨学科创新能力,效果超越SOTA竞品2.5倍

科学创新与AI的碰撞 伟大的科学研究往往源于一个小小的灵感或创意。长期以来,科学创新与研究能力被认为是人类在人工智能时代中保持的独特优势。然而,西湖大学深度学习实验室的一篇论文在科学界引起了巨大反响。该论文介绍了一种全新的方法——利用大型语言模型来生成大量具有突破性的科学构想。只需一篇前沿的学术文章作为起点,该模型就能激发出数百个有创意且高质量的科研想法。 AI能否取代人类科学家? 西湖大学蓝振忠团队联合浙江大学、电子科技大学等多所高校,共同研发了“Nova大模型”。该模型能够生成大量突破性的...

OpenAI的大语言模型O1推理能力遭受质疑:GSM8K和逻辑推理测试揭示其脆弱性

就在一个月前,OpenAI悄然发布了o1,其推理能力令人瞩目。我曾用几个极其复杂的测试案例进行试验,许多模型遇到这些问题时往往会不知所措,甚至胡言乱语。其中一个特别难的案例是姜萍奥赛的数学题,几乎所有的大模型都无法正确解答,然而o1却给出了完美的答案。在之前的文章中,我分享了OpenAI给出的最佳提示词写作方法,第一条就是:保持提示词简单直接。模型擅长理解和响应简单的指令,而不是复杂的指导。我认为这是为了让o1更好地理解需求,同时加快处理速度。 直到最近看到苹果发布的一篇关于大型语言模型(LLM)的研究...

字节跳动推出AGILE框架:运用强化学习优化大语言模型(LLM)Agent端到端能力全面升级

大语言模型(Large Language Models, LLMs)的快速发展推动了LLM Agent的进步。为了增强LLM Agent的能力,最近的研究提出了多个关键组件和工作流。然而,如何将这些核心要素整合进一个统一的框架,并进行端到端优化,仍然是一个挑战。来自字节跳动(ByteDance)的研究人员提出了一种基于强化学习(Reinforcement Learning, RL)的LLM Agent框架——AGILE。 在AGILE框架下,Agent具备多种能力,包括记忆、工具使用、规划、反思、与外界环境交互及主动求助专家。通过强化学习,所有这些能力都能进行端到端的训练。特别是,AGILE...

创造历史:阿里通义开源模型Qwen2.5在Chatbot Arena上超越Llama,引领大语言模型潮流

近日,基准测试平台Chatbot Arena公布了最新的大模型盲测排行榜,阿里巴巴的通义千问开源模型Qwen2.5再次成功跻身全球前十。具体而言,Qwen2.5-72B-Instruct在大语言模型(LLM)榜单中排名第10,成为唯一进入前十名的中国大模型。此外,Qwen系列中的视觉语言模型Qwen2-VL-72B-Instruct也在Vision榜单中排名第九,是当前得分最高的开源大模型。 与此同时,Qwen系列在全球开源社区中的影响力显著提升,基于Qwen系列的衍生模型数量已突破7.43万个,超过了Llama系列的7.28万个。这标志着通义千问Qwen已经成为世界上最大的生成式...
1234