标签:大语言模型

OpenAI的大语言模型O1推理能力遭受质疑:GSM8K和逻辑推理测试揭示其脆弱性

就在一个月前,OpenAI悄然发布了o1,其推理能力令人瞩目。我曾用几个极其复杂的测试案例进行试验,许多模型遇到这些问题时往往会不知所措,甚至胡言乱语。其中一个特别难的案例是姜萍奥赛的数学题,几乎所有的大模型都无法正确解答,然而o1却给出了完美的答案。在之前的文章中,我分享了OpenAI给出的最佳提示词写作方法,第一条就是:保持提示词简单直接。模型擅长理解和响应简单的指令,而不是复杂的指导。我认为这是为了让o1更好地理解需求,同时加快处理速度。 直到最近看到苹果发布的一篇关于大型语言模型(LLM)的研究...

字节跳动推出AGILE框架:运用强化学习优化大语言模型(LLM)Agent端到端能力全面升级

大语言模型(Large Language Models, LLMs)的快速发展推动了LLM Agent的进步。为了增强LLM Agent的能力,最近的研究提出了多个关键组件和工作流。然而,如何将这些核心要素整合进一个统一的框架,并进行端到端优化,仍然是一个挑战。来自字节跳动(ByteDance)的研究人员提出了一种基于强化学习(Reinforcement Learning, RL)的LLM Agent框架——AGILE。 在AGILE框架下,Agent具备多种能力,包括记忆、工具使用、规划、反思、与外界环境交互及主动求助专家。通过强化学习,所有这些能力都能进行端到端的训练。特别是,AGILE...

创造历史:阿里通义开源模型Qwen2.5在Chatbot Arena上超越Llama,引领大语言模型潮流

近日,基准测试平台Chatbot Arena公布了最新的大模型盲测排行榜,阿里巴巴的通义千问开源模型Qwen2.5再次成功跻身全球前十。具体而言,Qwen2.5-72B-Instruct在大语言模型(LLM)榜单中排名第10,成为唯一进入前十名的中国大模型。此外,Qwen系列中的视觉语言模型Qwen2-VL-72B-Instruct也在Vision榜单中排名第九,是当前得分最高的开源大模型。 与此同时,Qwen系列在全球开源社区中的影响力显著提升,基于Qwen系列的衍生模型数量已突破7.43万个,超过了Llama系列的7.28万个。这标志着通义千问Qwen已经成为世界上最大的生成式...

【Letta资讯】MemGPT团队正式宣布创业,获得1000万美元融资,硅谷巨头Jeff Dean倾力投资——探索大语言模型与上下文内存管理的未来

一、为大语言模型构建更长的上下文,并让开发者自由切换基础模型 近年来,人工智能领域发展迅猛,尤其是大语言模型(LLM)的应用越来越广泛。然而,由于上下文窗口长度的限制,大语言模型在多轮对话和文档分析等任务中的表现仍有待提升。为了解决这一问题,Letta公司推出了一款名为Letta的AI上下文内存管理平台。 Letta平台将大语言模型的上下文分为“主上下文”和“外部上下文”。主上下文直接由模型访问和操作,而外部上下文则用于存储暂时不需要但在未来可能需要的信息。通过特定的内存管理算法,Letta可以在主上下文和外部...

国产加速框架TACO-LLM:如何实现推理效率超200%的提升与高性能优化,同时达到降本增效和易用性对齐vLLM?

大语言模型的发展与挑战 自从2022年10月ChatGPT问世以来,大语言模型(Large Language Model,简称LLM)引发了全球科技企业的关注。这些模型不仅数量增多,参数规模也在不断扩大,导致计算需求急剧上升。例如,大语言模型通常包含百亿至万亿个参数,训练时需处理数万亿个Token,这对显卡等算力提出了极高要求,同时也带来了巨大的能源消耗。据斯坦福人工智能研究所的《2023年AI指数报告》显示,GPT-3一次训练耗电1287兆瓦时,排放552吨二氧化碳。预计到2025年,AI相关业务在全球数据中心用电量中的占比将从2%增至10%,到203...

华为诺亚与中科大联合发布ToolACE:一款高效的大语言模型工具调用框架,API合成与数据质检能力媲美GPT-4,成为开源新星

大语言模型(如GPT-4)具有强大的语言处理能力,但在独立运行时仍存在一些局限性,例如无法进行复杂计算、无法获取实时信息以及难以提供专业定制化功能。然而,大语言模型的工具调用能力使其能够提供更全面、实时和精准的服务,从而大大扩展了其应用场景和实际价值。为了提升模型的工具调用能力,高质量、多样化且复杂的训练数据至关重要。然而,现实中收集和标注工具调用数据非常困难,现有合成数据生成方法在覆盖率和准确性方面仍有不足。 为了解决这个问题,华为诺亚方舟实验室联合中科大等机构的研究人员提出了一个统一...

探索OLMoE:首个100%开源的混合专家模型,拥有7B参数与1B稀疏激活的高效推理成本

训练代码、中间checkpoint、训练日志和训练数据都已经开源。尽管大语言模型(LM)在各类任务中取得了显著进展,但在训练和推理方面,性能与成本之间的权衡仍然是一个问题。对于很多学者和开发者而言,高性能的语言模型由于高昂的成本而难以触及。一种改善成本-性能的方法是采用稀疏激活混合专家(MoE)。MoE在每一层都有多个专家,每次只激活其中的一部分,从而使得MoE模型比密集模型更高效。因此,许多前沿模型如Gemini-1.5和GPT-4等都采用了MoE。 然而,大多数MoE模型都是闭源的,即便有些模型公开了权重,但对于训练数据...

李沐:依托大语言模型与BosonAI的创业之路——一年融资经历见证人工智能领域的飞速发展

创业初衷与进展 在亚马逊工作期间,心中一直怀揣着创业的梦想。最终,在第七年半之际,决定离开稳定的工作,踏上了创业之路。选择创业时,决定专注于大语言模型(LLM),并成立了BosonAI。公司的名称来源于量子物理学中的玻色子,寓意着团队希望将不同背景的人才汇聚在一起,共同创造价值。 公司命名与文化 在创业之初,一系列项目以“Gluon”命名,代表着将不同的元素紧密相连。最终,新公司命名为“BosonAI”,希望能够传递出“玻色子和费米子组成了世界”的概念,尽管这个名字偶尔会被误解为“Boston”。 融资经历 在筹备...

中金公司预测:未来十年,AI大语言模型引领的通用化技术将大幅提升采矿、医疗等行业生产率,推动就业结构转型

在最新的研究报告中,中金公司揭示了一个关键趋势,即人工智能(AI)技术,特别是大语言模型,正展现出越来越广泛的通用性应用。这一发展预示着AI在执行多元任务方面的能力增强,可能会对全球经济产生深远影响。据预测,到2035年,AI在中国的经济增长贡献可望达到惊人的12.4万亿元,相当于GDP的9.8%增量,年均增长率额外提高约0.8个百分点。 未来十年,AI将显著提高某些行业的生产力。其中,采矿业、医疗卫生、资源加工、信息技术以及租赁和商务服务业有望受益匪浅。然而,批发零售、住宿餐饮及轻工制造业的生产力提升则相...

探讨AGI与Scaling Law:马毅教授解析大语言模型对白盒CRATE架构的逻辑推理新视野——打造全球第二个OpenAI

马毅教授曾评论,顶尖CS毕业生不应局限于大语言模型,而应寻求创新。OpenAI的Sora展示了新毕业生的潜力。马毅认为大语言模型不是通往AGI的终点,而ChatGPT引领了AI 2.0时代,使AI智能通用性显现。AGI成为可实现的目标,Scaling Law成为实现AGI的原理,即增加数据、参数和算力以提升模型性能。然而,这种资源投入可能导致模型性能提升的局限性,如逻辑推理和数理能力的缺乏。马毅团队通过白盒CRATE架构研究,揭示Transformer模型的本质是数据压缩,认为目前技术无法达到人类智能水平。白盒架构能更高效、有针对性地发展模型,...
123