标签:大语言模型
N利用大语言模型进行中文简短问答的真实性评估:RAG策略下的对齐代价分析——OpenAI o1与豆包的表现对比及其它模型的挑战
中文简短问答:评估大语言模型中文真实性能力的新基准 引言 随着人工智能技术的迅猛发展,确保语言模型生成的真实性成为了一项重要挑战。目前,尽管前沿的大语言模型(LLM)在许多任务上表现出色,但它们有时会产生错误或缺乏证据支持的输出,这被称为“幻觉”问题。这种问题严重限制了大语言模型在实际应用中的广泛使用。因此,评估大语言模型的真实性能力变得尤为重要。 新的评估基准 近日,淘宝天猫集团的研究者们提出了一种新的中文简短问答(Chinese SimpleQA)基准,这是首个全面评估大语言模型中文真实性能力的基准...
国内AI搜索新高度:天工AI与大语言模型助力金融投资与科研学术,免费体验
老牌搜索巨头面临挑战,AI搜索战火重燃 近日,谷歌、微软等老牌搜索巨头们感受到了前所未有的压力。Meta 被曝出正在开发 AI 搜索引擎,以减少对谷歌和微软在 AI 实时摘要生成中的依赖。与此同时,ChatGPT 完成了向 AI 搜索的升级,用户可以通过网络资源链接快速获取实时搜索结果。OpenAI CEO 奥特曼表示,「一旦使用,你就会回不去」。这些动作再次证明了大模型重塑搜索引擎的巨大潜力。 搜索引擎与 AI 的融合加速 近年来,以 GPT 为代表的大语言模型推动了搜索范式的转变。无论是谷歌、微软在原有搜索产品上的 AI 能力...
OpenAI-o1思考替代法热度攀升!焦剑涛高徒一作提出思考偏好优化,利用大语言模型如Llama 3 8B Instruct与AlpacaEval,拓展推理任务边界——天浩吴的创新研究
OpenAI-o1思考替代法引发关注,华人学者提出思考偏好优化方法 近期,一项新的研究引起了广泛关注,该研究提出了一种名为“思考偏好优化”(Thought Preference Optimization, TPO)的方法,旨在使大型语言模型(LLM)能够根据任务的复杂度进行不同程度的“思考”,从而提高其输出质量。这一方法不仅适用于逻辑和数学推理任务,还能应用于一般的问答场景。 研究背景与意义 这项研究由华人学者Tianhao Wu及其导师焦剑涛等人共同完成。焦剑涛曾是2011年清华大学特等奖学金获得者。研究团队提出了一种新的训练方法,通过在模型中...
西湖大学推出「AI科学家」Nova大模型,大幅提升科研效率与跨学科创新能力,效果超越SOTA竞品2.5倍
科学创新与AI的碰撞 伟大的科学研究往往源于一个小小的灵感或创意。长期以来,科学创新与研究能力被认为是人类在人工智能时代中保持的独特优势。然而,西湖大学深度学习实验室的一篇论文在科学界引起了巨大反响。该论文介绍了一种全新的方法——利用大型语言模型来生成大量具有突破性的科学构想。只需一篇前沿的学术文章作为起点,该模型就能激发出数百个有创意且高质量的科研想法。 AI能否取代人类科学家? 西湖大学蓝振忠团队联合浙江大学、电子科技大学等多所高校,共同研发了“Nova大模型”。该模型能够生成大量突破性的...
OpenAI的大语言模型O1推理能力遭受质疑:GSM8K和逻辑推理测试揭示其脆弱性
就在一个月前,OpenAI悄然发布了o1,其推理能力令人瞩目。我曾用几个极其复杂的测试案例进行试验,许多模型遇到这些问题时往往会不知所措,甚至胡言乱语。其中一个特别难的案例是姜萍奥赛的数学题,几乎所有的大模型都无法正确解答,然而o1却给出了完美的答案。在之前的文章中,我分享了OpenAI给出的最佳提示词写作方法,第一条就是:保持提示词简单直接。模型擅长理解和响应简单的指令,而不是复杂的指导。我认为这是为了让o1更好地理解需求,同时加快处理速度。 直到最近看到苹果发布的一篇关于大型语言模型(LLM)的研究...
字节跳动推出AGILE框架:运用强化学习优化大语言模型(LLM)Agent端到端能力全面升级
大语言模型(Large Language Models, LLMs)的快速发展推动了LLM Agent的进步。为了增强LLM Agent的能力,最近的研究提出了多个关键组件和工作流。然而,如何将这些核心要素整合进一个统一的框架,并进行端到端优化,仍然是一个挑战。来自字节跳动(ByteDance)的研究人员提出了一种基于强化学习(Reinforcement Learning, RL)的LLM Agent框架——AGILE。 在AGILE框架下,Agent具备多种能力,包括记忆、工具使用、规划、反思、与外界环境交互及主动求助专家。通过强化学习,所有这些能力都能进行端到端的训练。特别是,AGILE...
创造历史:阿里通义开源模型Qwen2.5在Chatbot Arena上超越Llama,引领大语言模型潮流
近日,基准测试平台Chatbot Arena公布了最新的大模型盲测排行榜,阿里巴巴的通义千问开源模型Qwen2.5再次成功跻身全球前十。具体而言,Qwen2.5-72B-Instruct在大语言模型(LLM)榜单中排名第10,成为唯一进入前十名的中国大模型。此外,Qwen系列中的视觉语言模型Qwen2-VL-72B-Instruct也在Vision榜单中排名第九,是当前得分最高的开源大模型。 与此同时,Qwen系列在全球开源社区中的影响力显著提升,基于Qwen系列的衍生模型数量已突破7.43万个,超过了Llama系列的7.28万个。这标志着通义千问Qwen已经成为世界上最大的生成式...
【Letta资讯】MemGPT团队正式宣布创业,获得1000万美元融资,硅谷巨头Jeff Dean倾力投资——探索大语言模型与上下文内存管理的未来
一、为大语言模型构建更长的上下文,并让开发者自由切换基础模型 近年来,人工智能领域发展迅猛,尤其是大语言模型(LLM)的应用越来越广泛。然而,由于上下文窗口长度的限制,大语言模型在多轮对话和文档分析等任务中的表现仍有待提升。为了解决这一问题,Letta公司推出了一款名为Letta的AI上下文内存管理平台。 Letta平台将大语言模型的上下文分为“主上下文”和“外部上下文”。主上下文直接由模型访问和操作,而外部上下文则用于存储暂时不需要但在未来可能需要的信息。通过特定的内存管理算法,Letta可以在主上下文和外部...
国产加速框架TACO-LLM:如何实现推理效率超200%的提升与高性能优化,同时达到降本增效和易用性对齐vLLM?
大语言模型的发展与挑战 自从2022年10月ChatGPT问世以来,大语言模型(Large Language Model,简称LLM)引发了全球科技企业的关注。这些模型不仅数量增多,参数规模也在不断扩大,导致计算需求急剧上升。例如,大语言模型通常包含百亿至万亿个参数,训练时需处理数万亿个Token,这对显卡等算力提出了极高要求,同时也带来了巨大的能源消耗。据斯坦福人工智能研究所的《2023年AI指数报告》显示,GPT-3一次训练耗电1287兆瓦时,排放552吨二氧化碳。预计到2025年,AI相关业务在全球数据中心用电量中的占比将从2%增至10%,到203...
华为诺亚与中科大联合发布ToolACE:一款高效的大语言模型工具调用框架,API合成与数据质检能力媲美GPT-4,成为开源新星
大语言模型(如GPT-4)具有强大的语言处理能力,但在独立运行时仍存在一些局限性,例如无法进行复杂计算、无法获取实时信息以及难以提供专业定制化功能。然而,大语言模型的工具调用能力使其能够提供更全面、实时和精准的服务,从而大大扩展了其应用场景和实际价值。为了提升模型的工具调用能力,高质量、多样化且复杂的训练数据至关重要。然而,现实中收集和标注工具调用数据非常困难,现有合成数据生成方法在覆盖率和准确性方面仍有不足。 为了解决这个问题,华为诺亚方舟实验室联合中科大等机构的研究人员提出了一个统一...