标签:语言模型
利用NVIDIA Llama 3.1:通过合成数据微调语言模型以提升RAG系统性能的实战指南与代码分享
随着Llama 3.1模型的发布,英伟达分享了一篇技术指南,教大家如何有效利用这一强大的开源模型来生成合成数据,特别适用于领域模型或RAG系统的微调。面对“数据墙”的逼近,英伟达推出了拥有340B参数的开源模型Nemotron,预训练数据中有98%都是合成数据,这意味着真实数据的稀缺性可能不再是限制因素。 合成数据的本质与LLM的关系 合成数据并非凭空创造新信息,而是通过对现有信息进行转换来生成不同的变体。这种技术在AI领域已有十多年的历史,例如在物体检测或分类系统中的数据增强。近年来,随着模型对大量训练数据的需求...
谷歌震撼发布Gemma 2:270亿参数开源AI模型,极致推理效率引领业界,轻松运行于A100 / H100 GPU
谷歌近日向全球的研究者和开发者推出了全新的Gemma 2大语言模型,该模型具有两个版本,分别拥有90亿和270亿参数,相较于前一代,它在性能和效率上有了显著提升,同时在安全特性上取得了重要进展。据谷歌介绍,Gemma 2-27B模型的性能可与双倍规模的主流模型匹敌,但只需一片英伟达H100 Tensor Core GPU或TPU主机即可支持,大大降低了部署成本。对于资源有限的环境,谷歌即将推出26亿参数的Gemma 2模型,特别适合智能手机等AI应用。 Gemma 2的架构经过全面优化,旨在提供出色的性能和推理效率。27B版本在同类产品中表现出色,...
豆包大模型披露评测成绩,较上一代“云雀”提升19%
豆包大模型,一款新兴的人工智能语言处理工具,最近在火山引擎原动力大会上崭露头角,以其亲民的价格和出色的表现吸引了业界的目光。豆包模型在内部测试中展现出显著的提升,与前代产品“云雀”Skylark2 相比,其在11项主要评测集上的总分提高了19%,在代码能力和专业知识方面尤为突出。豆包在HumanEval和MBPP评测集上的提升达到了50%,在专业知识和指令遵循上分别提高了33%和24%。尽管GPT-4仍然领先,但豆包的综合评分76.8分显示出强劲的竞争实力。目前,豆包模型仅推出不久,尚无第三方评测,但预计未来会有更多测试结果公布...
Hinton揭秘Ilya成长历程:Scaling Law是他学生时代就有的直觉
在AI领域,Ilya Sutskever是一位传奇人物,他的成长历程深受他的导师Geoffrey Hinton的影响。早在2003年,Ilya凭借他对机器学习的热忱,未经预约就闯入Hinton的办公室,从此开始了他在AI领域的非凡旅程。在Hinton的指导下,Ilya展现了惊人的直觉和编程天赋,比如他早在2010年就用GPU开发了语言模型,预见到Scaling Law的重要性,这一理念后来成为AI领域的核心思想。Ilya在OpenAI的工作,包括领导开发GPT系列和ChatGPT,进一步改变了世界。尽管Ilya相对低调,但他的学术见解和技术贡献不容忽视,他坚信语言模型的潜力远超过预...
AI知道苹果是什么吗?DeepMind语言模型科学家正把这些概念变得可量化、可测试
计算机科学家Ellie Pavlick专注于研究大语言模型(LLM)的理解能力,探讨了语言模糊性的本质以及如何寻找模型中意义的证据。Pavlick指出,语言模型的“理解”涉及到单词的概念和意义,而这些概念可能独立于语言本身存在,如感官知觉和社会互动。她通过研究模型如何编码语义,寻找内部结构,以证明模型是否真正理解语言。一个例子是模型如何处理不同国家的首都信息,显示了模型可能总结和应用通用算法的能力。此外,Pavlick还讨论了“基础”(grounding)的概念,即语言如何与非语言输入相关联,以形成意义。尽管面临挑战,如避免...
微软发布Phi-3 Mini:3.8B参数小到能塞进手机,性能媲美GPT-3.5
微软近日在其官网上开源了名为 Phi-3-mini 的小型语言模型,这是 Phi-3 系列的第一个模型,拥有38亿参数和丰富的训练数据。Phi-3-mini 在多项语言、推理、编码和数学基准测试中表现出色,超越了许多百亿参数规模的模型。该模型有两种上下文长度变体,经过预训练和指令调整,能更好地理解和执行各种指令。与大型语言模型相比,Phi-3-mini 更易于操作,适合在端侧部署和运行。微软表示,该模型的成本远低于类似功能的模型,例如可能是GPT-3.5成本的十分之一。Phi-3-mini 的出色性能得益于合成数据集的训练,该数据集由过滤的网...
马斯克 xAI 推出 Grok-1.5 大语言模型:提升推理能力,可处理 128k 上下文
近日,马斯克麾下的人工智能企业xAI在其官方网站发布重要公告,正式宣告Grok-1.5大语言模型的诞生。这款升级版模型具备更强大的推理功能,支持长达128k的上下文长度,特别在编码和数学任务中展现出卓越性能。在接下来的数日里,Grok-1.5将逐步登陆?平台,供初期试用者和现有Grok用户抢先体验。 根据官方测试,Grok-1.5在MATH基准上得分50.6%,在GSM8K基准上达到90%,两项指标均涵盖了从小学到高中的各类数学难题。同时,它在HumanEval基准上表现出色,代码生成和问题解决能力得分高达74.1%。在长篇幅上下文理解上,Grok-1.5...
计算蛋白质工程最新SOTA方法,牛津团队用密码子训练大语言模型
牛津大学的研究团队在蛋白质工程领域开辟新路径,他们发现训练于密码子而非氨基酸序列的大型语言模型能提供优质的蛋白质表征,且在多种任务中超越现有最先进的模型。这项研究发表在2024年2月的《Nature Machine Intelligence》上,题为“Codon language embeddings provide strong signals for use in protein engineering”。 尽管预训练语言模型已是计算蛋白质工程的关键工具,但目前大多聚焦于模型规模的扩大。然而,牛津团队的模型CaLM(8600万参数)在密码子序列上预训练,展现出在物种识别、蛋白质丰度预测等任务上的优...