标签:大型语言模型

【北大AI奥数评测新突破:o1-mini表现优异,超越o1-preview,助力Omni-MATH大型语言模型】

北大AI奥数评测:o1-mini比o1-preview分数更高 明敏 2024-09-23 08:51:52 来源:量子位 自从OpenAI发布了o1系列模型后,传统数学评测基准似乎已经跟不上时代的步伐。最新的评测结果显示,o1系列模型在MATH-500基准测试中取得了94.8分的高分。而在更具挑战性的奥数邀请赛AIME 2024中,o1系列模型的准确率也达到了83.3%。这些成绩引发了人们的思考:大模型是否能在更高难度的数学竞赛中表现出色? 为了解答这个问题,北京大学与阿里巴巴的研究团队合作开发了一个新的评测基准——Omni-MATH。该基准旨在评估大型语言模型在...

香港城市大学研究:大型语言模型的自我纠正——《Learning from Correctness》揭示推理步骤的新视角

本文介绍了香港城市大学与华为诺亚方舟实验室合作的一项研究成果。主要作者姚宇璇是香港城市大学计算机系的二年级博士生,专注于大模型的复杂推理和生成技术,导师为宋林琦教授。此外,华为诺亚方舟实验室的研究员吴涵和郭志江也参与了这项研究。 尽管大型语言模型(LLMs)在许多领域取得了显著进展,但依然存在产生幻觉、生成有害以及不遵循人类指令的问题。一种流行的解决方案是通过自我纠正机制来改进模型,即让模型能够自行检测并修正错误。然而,现有的一些自我纠正方法依赖于复杂的提示工程、人类反馈或外部工具,这...

全球顶级孵化器Y Combinator探讨:AI与大型语言模型的商业化潜力及投资价值

Y Combinator (YC) 的CEO Gary Tan与合伙人Jared Friedman、Harj Taggar和Diana Hu在最新一期播客节目中探讨了当前人工智能(AI)的热潮及其潜在价值。他们认为,虽然AI领域存在炒作现象,但与加密货币的泡沫不同,AI的技术基础更为坚实。 - 当前的AI热潮类似于互联网泡沫,虽然技术取得了重大进展,但在实际应用和商业模式方面仍存在不确定性。 - 大型语言模型的竞争格局在过去一年发生了显著变化,出现了多个具备竞争力的模型,如Claude 3.5和Llama。 - AI价值链中的价值分配尚不确定,需要时间来验证和成熟,类似智能手机...

DAI 2024 征稿启动:分布式人工智能盛会聚焦 Agent Day —— 强化学习奠基人 Richard Sutton 确认出席!更有颜水成、Sergey Levine 及 DeepMind 科学家共探大型语言模型与多智能体系统前沿进展

分布式人工智能:探索未来的无限可能 随着科技进步的步伐不断加快,人工智能正逐渐成为推动社会发展的重要引擎。在这一浪潮中,分布式人工智能(Distributed Artificial Intelligence, DAI)作为AI领域的一个重要分支,近年来受到了广泛关注。尤其值得一提的是,基于大型语言模型(Large Language Model, LLM)的智能体(Agent)以其独特的语言理解和生成能力,在自然语言处理、知识推理及任务规划等方面展现出巨大潜力,成为了AI领域的焦点。 智能体引领新潮流 智能体不仅在游戏、编程等领域展现了其应用潜力,还在日常...

麻省理工学院ICML 24论文:大型语言模型的编程理解与语义习得——揭秘Karel语言中的‘思维过程’

大型语言模型(LLM)不仅能够学习编程,还能形成对现实世界的独特理解。麻省理工学院(MIT)的一项最新研究表明,随着模型能力的增强,它不仅仅模仿现实,而是能够自发地模拟一些复杂的概念。这篇论文已被国际机器学习大会(ICML 24)接受,揭示了LLM在理解和处理现实问题方面的能力远远超出了简单的统计关联。 研究背景及目的 研究团队来自MIT计算机科学与人工智能实验室(CSAIL),由华裔博士生Charles Jin和其导师Martin Rinard教授领导。他们旨在探究LLM是否能够真正理解代码背后的意义,而不只是记忆训练数据。通过构...

大型语言模型的推理能力受输出格式限制影响显著,尤其在JSON格式下最为严重

大型语言模型(LLMs)的推理能力竟然受到输出格式的显著影响,尤其是当输出格式被严格限定为JSON时,这种影响更为明显。台湾大学与Appier AI Research的一项最新研究揭示了这一现象,并提出了一种有效缓解该问题的方法。 研究背景 在现实世界的应用场景中,为了使大型语言模型能够更好地融入各种工业应用程序,往往需要它们遵循特定的标准化输出格式,如JSON或XML。然而,如何在保持模型推理能力的同时满足这些格式要求,一直是研究者们关注的重点。 实验设计 研究团队选取了一个具体的例子进行实验:计算Eliza一周工作...

李沐与BosonAI:创业一年,犹如人间三年的探索之旅——聚焦大型语言模型及AI技术

创业之路:李沐的LLM创业之旅 自从离开亚马逊,李沐便踏上了创建BosonAI的旅程。在这条路上,他不仅体验了创业的艰辛,还见证了人工智能领域的巨大变化。起初,他对创业充满了期待,尽管面临诸多未知挑战,但他坚信尝试总是必要的。随着时间的推移,BosonAI逐步成长,并在大型语言模型(LLM)领域取得了显著成就。 公司命名背后的故事 公司的名字“BosonAI”来源于量子物理学中的玻色子概念,代表着连接与合作的精神。虽然这个名字有时候会被误认为“Boston”,但它蕴含的意义却远不止于此。这个名字反映了团队希望人们能够...

探究投机采样对大型语言模型推理精度的无损性:数学证明与实验验证

投机采样:加速大型语言模型推理的新途径 自2018年Mitchell Stern等人提出投机采样的概念以来,这一技术已成为加速大型语言模型(LLM)推理的关键方法之一。随着Lookahead Decoding、REST、Medusa 和 EAGLE 等后续工作的推进,投机采样的效能得到了显著提升。本文旨在解答一个核心问题:投机采样是否会影响LLM的原始准确度? 答案是:不会。 标准的投机采样算法在理论上和实践上都是无损的。接下来,我们将通过详细的数学分析和直观的图表解释来展示这一点。 数学证明:投机采样的无损性 投机采样的核心公式可定义如下...

Noam Shazeer回归谷歌:Transformer作者与Character.AI创始团队加入,一次只求人才的‘收购’

近期,AI领域再次掀起波澜,初创公司Character.AI宣布了一项重大决定:与科技巨头谷歌达成协议,授权后者使用其先进的大型语言模型(LLM)技术。此次合作不仅标志着Character.AI技术的认可,还伴随着两位关键人物——Noam Shazeer和Daniel De Freitas——回归谷歌。Noam Shazeer不仅是Character.AI的创始人兼CEO,同时也是著名的Transformer论文作者之一,曾在谷歌担任首席软件工程师。Daniel De Freitas则是Character.AI的总裁,拥有在谷歌担任高级软件工程师的经历。 2021年,由于对谷歌内部官僚体系感到不满,Noam Shazeer和...

Meta发布最强AI模型,扎克伯格公开信解释为何支持开源?

北京时间7月24日,Meta(脸书母公司)公布了其最新的大型语言模型——Llama 3.1。这款模型被标榜为迄今为止最强大的开源模型之一,其实力足以与OpenAI等公司的专有大型模型相匹敌。 Meta的CEO马克·扎克伯格(Mark Zuckerberg)发布了一封公开信,详细阐述了他对AI开源的支持态度。他在脸书上发表的文章标题为“开源AI:通往未来的道路”。 扎克伯格认为,AI技术不应该仅仅掌握在少数几家大企业手中,即使是自己所在的公司也不例外。通过开源AI,技术专家能够深入了解高级AI模型的构建过程,并据此开发自己的AI应用程序。 回顾...
123