在当今的AI for Biology领域,基础模型成为了热门话题。研究人员希望将更多数据输入更大的模型中进行计算测试,以预测细胞状态如何响应化学扰动的变化,识别更好的酶来降解塑料或开发具有类似药物特性的蛋白质结合剂。这些研究建立在越来越容易获得的基因组数据之上,预示着一个光明的未来。
然而,FutureHouse的联合创始人兼首席执行官Sam Rodriques认为,真正的生物学研究与当前的基础模型存在差距。他指出,在NeurlPs等AI生物学会议上,真正从事生物学研究的专业人士并不多。例如,《Nature》和《Science》期刊上的最新研究展示了复杂的生物现象,如长非编码RNA(lncRNA)在神经元可塑性中的作用、癌细胞通过脂质代谢物逃避免疫机制以及钙调磷酸酶和PKA对睡眠-觉醒周期的调节。
Sam表示,这些复杂的生物学发现很难通过现有的多模态基础模型实现。尽管基础模型可以识别某些生物分子,但难以理解其在复杂生物过程中的具体作用。例如,基础模型可能识别出lncRNA,但无法将其与染色质重塑联系起来;同样,它可能识别出黑色素瘤细胞的代谢变化,但无法解释这些变化如何阻止CD8+T细胞的激活。
问题在于,机器学习模型擅长处理结构化数据,而生物学本身是高度非结构化的。例如,lncRNA在调节染色质结构中的作用无法通过现有的蛋白质、DNA或虚拟细胞模型来表示。每个生物学发现似乎都需要独特的表示空间,这使得构建能够全面描述生物现象的模型变得异常困难。
Sam认为,自然语言可能是解决这一问题的关键。自然语言已经发展到足以表示人类所能思考的所有概念,并且足够灵活地表达生物概念的多样性。将语言和生物学结合起来的一种方法是使用语言代理,如FutureHouse构建的PaperQA2。这种代理可以通过文献搜索工具、蛋白质结构预测工具等快速分析生物数据,并撰写准确的维基百科风格文章。
此外,将自然语言与蛋白质、DNA、转录组学等结合的训练模型也显示出巨大的潜力。前提是添加结构化数据类型不会限制它们表示非结构化概念的能力。生物学的历史表明,最有效的工具往往来自自然界。正如CRISPR技术一样,自然语言作为一种古老的工具,可能成为解开生物学奥秘的重要手段。
本文来源: 机器之心【阅读原文】