人工智能在科学发现中的新突破:MOOSE-Chem 模型助力化学假设生成
近年来,人工智能(AI)已经在自然语言处理(NLP)和计算机视觉(CV)等领域取得了显著进展。然而,AI 是否能够帮助科学家发现新的科学理论?ICLR 2025 接收的一篇论文《MOOSE-Chem: 大规模语言模型用于重新发现未见的化学科学假设》提出了一个令人振奋的问题:大规模语言模型(LLMs)能否仅依赖化学研究背景信息,自动发现新的、有效的化学科学假设?
这项研究表明,LLM 可以自主发现新颖且可行的科学假设,甚至可以重新发现那些已经发表在顶级期刊如《Nature》和《Science》上的化学假设。为了确保这种重新发现不是由于数据污染,而是 LLM 本身的能力,研究团队通过划分使用的 LLM 的预训练数据截止时间与顶级期刊文章的在线发布时间进行了验证。
此外,该研究不仅提供了关于科学假设形成的数学建模,还提出了“代理型 AI 科学发现框架”,使 LLM 能够自动生成并筛选科学假设,为 AI 在科学研究中的应用提供了新思路。
MOOSE-Chem 核心假设:化学研究假设的形成机制
MOOSE-Chem 研究的核心假设是:化学研究假设 h 不是凭空创造的,而是由研究背景 b 和若干研究灵感 i 组合而成的。研究团队通过认知科学、论文分析和数学建模,系统性地验证了这一假设的合理性,并建立了 AI 可执行的科学发现框架。
1. 认知科学的启发创造力
创新通常来自已有知识的重新组合,这可以追溯到:
– 知识重组理论(Knowledge Recombination):科学发现往往源于跨领域知识的结合。
– 联想理论(Association Theory):创新通常通过已有概念的连接产生。
这些理论表明,化学研究假设很可能是由背景知识(b)+ 研究灵感(i)组合产生的。
2. 顶级化学论文的分析
研究团队通过利用核心假设,链式法则和引入马尔科夫性质,得到了 P(h | b)的一个约等式。最终研究团队得到了一个简化模型,将复杂的难以建模的 P(h | b)转换成了一系列难度显著降低的可以建模的小项的乘积。
MOOSE-Chem 框架详解:AI 如何进行自动科学发现?
1. 文献检索(Literature Retrieval)——找到潜在研究灵感
MOOSE-Chem 使用大语言模型(LLMs)结合信息检索的方法,帮助 AI 从大量化学论文中筛选出可能的研究灵感。基于 LLM 的语义检索,研究背景作为输入,LLM 通过语义相似性搜索在论文数据库中找到相关研究。例如,如果研究背景涉及某种新型催化剂,LLM 会检索相关的催化剂研究,并提取其中的关键技术或方法。
2. 假设生成(Hypothesis Generation)——从背景和灵感构造研究假设
有了研究灵感后,MOOSE-Chem 需要根据背景信息和灵感,构造新的科学假设。这个过程类似于科学家在头脑风暴时结合已有知识提出研究方向。
– 基于 LLM 的 Prompt 生成:例如,如果背景涉及某种电化学反应,灵感来自某种新的催化材料,LLM 会根据新的催化材料来构造新型电化学方案。
– 进化优化(Evolutionary Optimization):采用进化算法优化假设,包括变异(Mutation)、精炼(Refinement)和重组(Recombination),以探索更多可能性并提升假设质量。
3. 假设排序(Hypothesis Ranking)——筛选最优科学假设
MOOSE-Chem 生成了多个可能的研究假设,但并非所有假设都合理。因此,MOOSE-Chem 需要对生成的假设进行评估,并筛选出最优的科学假设。基于 GPT-4o 的评分,评估每个假设的创新性、合理性和实验可行性。
主要实验结果
1. LLM 成功识别相关启发性论文
在 3000 篇论文库中,LLM 能够找到 75% 以上的真实启发论文,即使只筛选出 4% 的论文。结果表明,LLM 已经学习到了许多科学家未知的知识关联。
2. LLM 推理出高质量的新知识
LLM 生成的假设与真实假设的相似度较高,28 个假设的最高匹配评分(Top MS)为 4 或 5 分(满分 5 分),其中 9 个假设的最高匹配评分达到了 5 分,说明 LLM 具备从背景+启发中推理出创新性假设的能力。
3. LLM 有效对假设进行排名
采用 LLM 评分机制,高质量假设通常排名更高。与真实论文中使用的启发数量相关性较强,即:启发匹配越多,排名越高;匹配评分越高,排名越高,说明 LLM 能够筛选出更有价值的假设。
最终发现
1. 覆盖核心创新点
MOOSE-Chem 生成的假设可以在不访问真实假设的情况下,覆盖论文的核心创新点。在 51 篇论文的评测中,近 40% 的实验生成假设与真实假设高度相似。
2. 多步启发和变异/重组策略提升假设质量
相比现有方法(如 SciMON, MOOSE),MOOSE-Chem 在最高匹配评分(Top MS)和平均匹配评分(Average MS)上均有显著提升,说明进化算法能够提升假设的创造性和合理性。
3. 实际应用前景
在实际应用中,MOOSE-Chem 可作为科研助理协助研究人员提出高质量假设,自动检索启发性文献、生成研究假设,并提供初步筛选排名,减少研究人员的筛选和构思时间。
