标签:大型语言模型
大型语言模型, LLMs, 智能训练技术
OpenAI的联合创始人Ilya Sutskever指出,使用大量未标记数据来理解语言模式和结构的训练阶段已经接近尾声。他表示,扩展训练的效果已经趋于平稳,这意味着通过增加数据和计算资源来提升AI模型性能的方法(即Scaling Law)已经遇到了瓶颈。像ChatGPT这样的大型语言模型(LLMs)当前的扩展策略已经达到了极限。 根据Ilya Sutskever的观点,简单地通过增加更多的数据和计算资源来扩大规模已不足以实现有意义的进步。虽然增加计算能力仍然是提升AI性能的一种方式,但已经无法像以前那样通过不断增加数据量和计算能力来显著提升...
谷歌DeepMind最新研究登上Nature封面,隐形水印方案提升AI生成内容的文本质量与大型语言模型的安全性
你是否知道,我们每天在网上看到的有多少是由AI生成的?除了那些令人头皮发麻的“注意看!这个男人叫小帅”之外,真正的难题在于我们无法分辨哪些是AI生成的。随着这些擅长一本正经胡说八道的AI不断进化,人类面临的挑战也日益增多。 近日,谷歌DeepMind团队在Nature期刊上发表了一项重要研究,提出了一种名为SynthID-Text的水印方案,该方案可以应用于生产级别的大型语言模型(LLM),帮助追踪AI生成的文本,使其无所遁形。论文地址:[https://www.nature.com/articles/s41586-024-08025-4](https://www.nature.com/articl...
2024年AI技术年度报告发布:十大预测揭示人工智能趋势,大型语言模型与生成式人工智能引领未来,机器学习持续发展,人形机器人热度下降,英伟达维持霸主地位
AI技术的快速发展 AI技术日新月异,许多大公司如Netflix已经开始利用AI制作特效。新的AI模型不仅在游戏和科学研究中超越了人类,还在其他领域展现出巨大潜力。预计在未来一年,即使没有编程技能的人也能创造出热门应用,AI创作的歌曲甚至可能登上音乐排行榜前十。 State of AI 2024产业报告 最近,State of AI发布了2024年度报告,这是该团队发布的第七份年度报告。报告从研究进展、行业局势、现有政策、安全问题和未来预测等多个角度,对人工智能行业的现状和预期进行了深入分析。报告链接:[点击这里](https://docs.goo...
RAG技术新突破:块状注意力机制大幅提升大型语言模型的推理效率与检索增强能力
在工业应用场景中,检索技术常被用来为大型语言模型(LLM)提供外部数据库的知识文档,以提高模型回答的可信度。目前,RAG(Retrieval-Augmented Generation)被认为是向 LLM 注入特定领域知识最有效的方法之一。然而,RAG 也存在一些缺点。为了确保召回包含正确信息的文档,通常每次用户查询都会检索多个文档(大约 5 到 30 个),并将这些文档整合到输入提示中。这导致输入提示的序列长度增加,从而使推理效率显著下降。具体来说,RAG 模型的首次生成标记时间(TTFT)明显高于非 RAG 模型。 为了解决这一问题,研究人员提...
斯坦福大学开源学术研究工具STORM升级,大型语言模型助力Co-STORM实现协作对话机制
斯坦福大学推出强大AI写作工具STORM 今年4月,斯坦福大学推出了一款名为STORM的强大工具,旨在利用大型语言模型(LLM)辅助编写类似维基百科的文章。这款开源工具可以在短短三分钟内将用户输入的主题转化为长篇文章或研究论文,并支持PDF格式直接下载。STORM通过检索、多角度提问和模拟专家对话等方式,整理收集到的信息,生成详细的写作大纲,最终形成一份深入且准确的报告。尤其适合需要大量研究和引用的写作任务。用户可以在STORM的官方网站上免费体验这一工具。自推出以来,STORM在GitHub上的Star数量已超过12k。 全新...
AI驱动的大型语言模型在化学空间探索中的应用:精准导航过渡金属配合物的HOMO-LUMO能隙,进化优化算法助力目标分子发现
现代化学探索的革命:LLM-EO助力高效化学空间优化 在现代科学研究中,化学空间的探索一直是化学发现和材料科学的核心挑战之一。特别是在过渡金属配合物(TMCs)的设计中,庞大的化学空间使得多目标优化变得异常困难。为了解决这一难题,「深度原理」(Deep Principle)和康奈尔大学的研究团队共同开发了一种名为LLM-EO(Large Language Model for Evolutionary Optimization)的新型工作流程算法,该算法充分利用了大型语言模型(LLM)的生成和预测能力,显著提升了化学空间探索的效率。 LLM-EO的工作原理 LLM-EO是一种...
颜水成与袁粒提出新一代MoE++架构:零计算量专家助力大型语言模型,专家吞吐速度最高提升2.1倍,优化路由分数残差!
新一代MoE架构:专家吞吐速度最高提升2.1倍! 2024年10月21日,来源:量子位 近日,由北京大学和昆仑万维2050研究院联合提出的新型混合专家(MoE)架构——MoE++,在性能和效率方面取得了显著突破。这一架构通过引入“零计算量专家”设计,大幅提升了模型的计算效率和性能表现。 1. MoE++的主要创新点 MoE++的核心创新在于引入了三种“零计算量专家”,分别为Zero专家、Copy专家和Constant专家。这些专家的设计旨在优化计算资源的分配,使模型能够更高效地处理不同复杂度的Token。 - 降低计算成本:MoE++允许每个Token使用可...
NVIDIA全新nGPT助力大型语言模型训练速度大幅提升,归一化Transformer技术引领AI未来潮流,模型精度再创新高
快科技10月20日报道,NVIDIA的研究团队近期发布了一项可能彻底改变人工智能未来的创新成果——归一化Transformer(nGPT)。这一新型神经网络架构在超球面上进行表示学习,显著提升了大型语言模型(LLM)的训练速度,最高可达到20倍,同时保持了模型的精度。 nGPT的核心技术在于将所有向量,包括嵌入、多层感知机(MLP)、注意力矩阵和隐藏状态,归一化为单位范数。这种归一化处理使输入的token在超球面上移动,每一层模型通过位移来贡献最终的输出预测。实验结果显示,与标准Transformer模型相比,nGPT在训练时所需的步骤减少...
苹果新论文揭示大型语言模型的逻辑推理能力局限:GSM-Symbolic与数学题挑战
苹果公司最新发布的一篇论文《GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models》探讨了大型语言模型(LLM)在数学推理方面的局限性。这篇论文由苹果机器学习研究工程师 Iman Mirzadeh 主笔,Samy Bengio 等人共同完成。研究团队通过一系列实验发现,即使是当前最先进的 LLM,如 OpenAI 的 o1-preview,在面对稍微复杂的数学问题时,依然会出现明显的推理错误。 研究人员通过具体例子展示了这一现象。例如,当题目中包含无关紧要的细节时,模型往往会被误导。例如,题目...
【北大AI奥数评测新突破:o1-mini表现优异,超越o1-preview,助力Omni-MATH大型语言模型】
北大AI奥数评测:o1-mini比o1-preview分数更高 明敏 2024-09-23 08:51:52 来源:量子位 自从OpenAI发布了o1系列模型后,传统数学评测基准似乎已经跟不上时代的步伐。最新的评测结果显示,o1系列模型在MATH-500基准测试中取得了94.8分的高分。而在更具挑战性的奥数邀请赛AIME 2024中,o1系列模型的准确率也达到了83.3%。这些成绩引发了人们的思考:大模型是否能在更高难度的数学竞赛中表现出色? 为了解答这个问题,北京大学与阿里巴巴的研究团队合作开发了一个新的评测基准——Omni-MATH。该基准旨在评估大型语言模型在...