大型语言模型在生物医学研究中的新突破:BioChatter开源框架
大型语言模型(LLMs)已经显著改变了人们的工作方式,从创作、编程到改进搜索引擎等。然而,LLMs 在透明度、可重复性和定制化方面的不足仍然限制了其在生物医学研究中的广泛应用。对生物医学研究人员来说,针对特定研究问题优化 LLMs 是一项艰巨的任务,因为这需要编程技能和机器学习专业知识。这些障碍减少了 LLMs 在许多研究任务中的应用。
为了克服这些限制,海德堡大学和欧洲生物信息研究所(EMBL-EBI)等机构的研究人员在《Nature Biotechnology》杂志上发表了一项新研究,提出了 BioChatter。BioChatter 旨在通过提供一个开放、透明的开源 Python 框架,降低生物医学研究人员使用 LLMs 的门槛。该框架可以适应不同的研究需求,帮助科学家专注于他们的研究,将技术复杂性交给平台处理。
论文地址:[https://www.nature.com/articles/s41587-024-02534-3](https://www.nature.com/articles/s41587-024-02534-3)
项目地址:[https://github.com/biocypher/biochatter](https://github.com/biocypher/biochatter)
BioChatter的功能特点
BioChatter 是一个与生物医学知识图谱无缝集成的开源框架,可以适应特定的研究领域,从生物医学数据库和文献中提取数据。通过 BioChatter 的 API 调用功能,用户可以实时访问最新信息,并与生物信息学工具集成。BioChatter 的关键特性包括:
1. 易于使用的接口:通过直观的 API 与 LLMs 及辅助技术进行交互,其功能可以集成到 Web 应用程序、命令行界面或 Jupyter 笔记本中。
2. 模块化结构:任何组件都可以与其他实现进行交换,增强了灵活性。
3. 基本问答交互:支持与托管在 OpenAI 等提供商上的 LLMs 以及本地部署的开源模型进行交互。
4. 可复现的提示工程:引导 LLM 完成特定任务或行为,确保任务的一致性和准确性。
5. 知识图谱查询:自动集成由 BioCypher 构建的知识图谱,帮助分析复杂的数据集。
6. 检索增强生成(RAG):利用用户提供的文献向量数据库嵌入,增强生成的准确性和相关性。
7. 模型链式调用:通过 LangChain 框架,在单一对话中协调多个 LLM 及其他模型,实现复杂的交互和任务执行。
8. 响应真实性核查:使用第二个 LLM 对第一个 LLM 的响应进行事实核查,提高信息的准确性。
9. 性能评估和比较:对不同的 LLM、提示策略及其他组件进行基准测试,以优化系统表现。
实验评估与未来展望
由于生物医学领域的特殊任务和要求,研究团队创建了一个定制化的基准测试,以更精确地评估各组件的性能。实验结果表明,未使用提示引擎的模型在生成正确查询方面的性能低于使用提示引擎的相同模型。
未来,BioChatter 将试验与生命科学数据库的集成。研究团队正在与 Open Targets 密切合作,利用人类遗传学和基因组学数据进行系统的药物靶点识别和优先排序。此外,他们还在开发一个补充系统——BioGather,旨在从其他临床数据类型(如基因组学、医学笔记和图像)中提取信息,帮助解决个性化医学、疾病建模和药物开发中的复杂问题。
相关报道:[https://www.eurekalert.org/news-releases/1070721](https://www.eurekalert.org/news-releases/1070721)
本文来源: