在现代医疗保健领域,高维临床数据(HDCD)如肺功能图、光体积描记法(PPG)、心电图(ECG)、CT扫描和MRI图像等不断积累,这些数据复杂多样,无法简单用二进制或连续数字概括。为了深入理解基因组与HDCD之间的关系,Google Research的基因组学团队近期取得突破,他们开发了一种名为低维嵌入基因发现的表示学习(REGLE)的无监督深度学习模型,旨在挖掘基因变异与HDCD之间的关联。
REGLE模型通过非线性、低维的表示学习,有效利用HDCD中的隐藏信息,提高了计算效率,并且无需疾病标签,同时能整合专家定义的知识。相比传统方法,REGLE能捕捉到更多临床相关信息,从而提升基因发现和疾病预测的准确性。相关研究已在《Nature Genetics》发表。
REGLE的工作流程包括三个步骤:首先,使用变分自编码器(VAE)学习HDCD的低维表示;其次,对每个表示坐标独立进行全基因组关联研究(GWAS);最后,利用编码坐标的多基因风险评分(PRS)创建针对特定疾病或特征的PRS。REGLE的独特之处在于,它允许将相关专家定义特征选择性地纳入解码器,以学习未表示的残差信号。
通过肺量图和PPG两种HDCD模式,REGLE成功检测到与肺和循环功能相关的新基因位点,同时提高了遗传风险评分(PRS)的准确性。在COPD、哮喘、高血压和收缩压的预测中,使用REGLE嵌入创建的PRS显著优于传统方法,展现出强大的潜在应用价值。
REGLE为无监督学习HDCD表示提供了新途径,有助于揭示基因与疾病之间的遗传基础,未来有望在基因组学研究中发挥更大作用。
基因组学, 低维嵌入, REGLE, 高维临床数据, 遗传风险评分
本文来源: 机器之心【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...