标签：大规模语言模型

大规模语言模型如何助力人工智能自主生成化学假设？ICLR 2025 论文MOOSE-Chem基于科学发现框架的深度解析

人工智能在科学发现中的新突破：MOOSE-Chem 模型助力化学假设生成近年来，人工智能（AI）已经在自然语言处理（NLP）和计算机视觉（CV）等领域取得了显著进展。然而，AI 是否能够帮助科学家发现新的科学理论？ICLR 2025 接收的一篇论文《MOOSE-Chem：大规模语言模型用于重新发现未见的化学科学假设》提出了一个令人振奋的问题：大规模语言模型（LLMs）能否仅依赖化学研究背景信息，自动发现新的、有效的化学科学假设？这项研究表明，LLM 可以自主发现新颖且可行的科学假设，甚至可以重新发现那些已经发表在顶级期刊如《N...

来源：

机器之心【阅读原文】
Tags：人工智能化学假设生成大规模语言模型科学发现框架自动科学发现

2个月前

Meta新作揭示合成数据对大规模语言模型的致命影响：竟1%足以引发模型崩溃，纽约大学深入研究解析背后原因

引言近期，Meta、纽约大学及加州大学洛杉矶分校的研究团队发布了一项新研究，揭示了一个令人震惊的现象：即使是少量的合成数据也可能导致大规模语言模型（LLM）性能急剧下降，甚至完全失效。研究指出，当合成数据占比达到1%时，模型的表现就会受到严重影响。更让人担忧的是，模型的参数越多，这种负面影响就越明显。这一发现引发了业界对合成数据在模型训练中的作用和风险的重新评估。合成数据带来的挑战 “模型崩溃”是指在使用合成数据进行训练的过程中，模型的性能逐渐下降，直至最终失去功能。研究团队通过实验发现...

来源：

新智元公众号【阅读原文】
Tags：Meta 合成数据大规模语言模型模型崩溃纽约大学

6个月前

终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名

最近的研究揭示了一个令人惊讶的现象，即许多流行的大规模语言模型（LLMs）存在过拟合问题。尽管一些小型模型如微软的 Phi-3 和 Mistral 8x22B 在推理任务上表现出色，但新研究表明，当前的评估方法可能并未准确反映大模型的真实能力。问题在于，大部分研究依赖于如 GSM8k、MATH 等测试集，而这些数据集可能已被训练数据污染，导致模型在基准测试中的表现被夸大。 Scale AI 的最新论文深入探讨了包括 GPT-4、Gemini、Claude 等在内的多个大模型，发现它们受到基准数据污染的影响。为避免数据污染，Scale AI 创建了新的 GSM1...

来源：

机器之心【阅读原文】
Tags：GSM1k 大规模语言模型推理能力数据污染过拟合

11个月前