赖斯工程师开发创新的微生物组分析软件工具
自 1995 年第一个微生物基因组被测序以来,科学家已经重建了数十万种微生物的基因组组成,甚至设计出了基于大量样本对皮肤、肠道、土壤、水和其他地方的细菌群落进行普查的方法,从而导致了一个相对较新的研究领域的出现,即宏基因组学。
分析宏基因组数据可能是一项艰巨的任务,就像试图将所有碎片拼凑在一起的大型拼图拼凑在一起一样。面对这一独特的计算挑战,莱斯大学图形人工智能 (AI) 专家Santiago Segarra 和计算生物学家Todd Treangen 联手探索如何利用人工智能数据分析来开发新工具,以增强宏基因组学研究。
这两位科学家专注于两种类型的数据,这两种类型的数据使得宏基因组分析特别具有挑战性——重复和结构变异——并开发了处理这些数据类型的工具,其性能优于当前的方法。
重复是指在单个生物体的基因组中以及生物群落的多个基因组中重复出现的相同 DNA 序列。
“来自多个生物体的宏基因组样本中的 DNA 可以表示为一个图表,”电气和计算机工程助理教授 Segarra 说道。“本质上,我们开发的工具之一利用了这个图表的结构来确定哪些 DNA 片段在不同微生物之间或同一微生物内重复出现。”
该方法被称为 GraSSRep,它结合了自监督学习(一种机器学习过程,其中人工智能模型训练自己以区分隐藏和可用输入)和图神经网络(一种处理以图形表示对象及其互连的数据的系统)。这篇经过同行评审的论文在计算分子生物学研究领域领先的年度国际会议RECOMB 2024的第 28届会议上发表。该项目由莱斯大学研究生兼研究助理Ali Azizpour领导。莱斯大学博士校友Advait Balaji也是这项研究的作者之一。
重复序列之所以受到关注,是因为它们在生物过程中发挥着重要作用,例如细菌对环境变化的反应或微生物群与宿主生物的相互作用。重复序列发挥作用的一个具体例子是抗生素耐药性。一般来说,追踪细菌基因组中重复序列的历史或动态可以揭示微生物的适应或进化策略。更重要的是,重复序列有时实际上是伪装的病毒或噬菌体。噬菌体源自希腊语中的“吞噬”一词,有时用于杀死细菌。
“这些噬菌体实际上看起来像重复序列,因此你可以根据基因组中包含的重复序列来追踪细菌-噬菌体动态,”计算机科学副教授 Treangen 说。“这可以为如何摆脱难以杀死的细菌提供线索,或者更清楚地描绘出这些病毒如何与细菌群落相互作用。”
以前,当使用基于图形的方法进行重复检测时,研究人员使用预定义的规范来查找图形数据中的内容。GraSSRep 与这些先前方法的不同之处在于,它缺乏任何此类预定义参数或参考来告知如何处理数据。
“我们的方法学习如何更好地使用图形结构来检测重复,而不是依赖于初始输入,”Segarra 说。“自我监督学习允许该工具在没有任何基本事实的情况下自我训练,以确定什么是重复,什么不是重复。当你处理宏基因组样本时,你不需要知道其中的内容就可以对其进行分析。”
Segarra 和 Treangen 共同开发的另一种宏基因组学分析方法也是如此⎯通过长读取共组装图(rhea)检测微生物组中的无参考结构变异。他们关于 rhea 的同行评审论文将在7 月 12 日至 16 日在蒙特利尔举行的国际计算生物学学会年会上发表。该论文的主要作者是莱斯大学计算机科学博士校友Kristen Curry,她将以博士后科学家的身份加入 Rayan Chikhi 的实验室⎯也是该论文的共同作者⎯在巴黎巴斯德研究所工作。GraSSRep
旨在处理重复,而 rhea 可处理结构变异,即 10 个碱基对或更多碱基对的基因组改变,由于其在各种疾病、基因表达调控、进化动力学和促进种群内和物种间遗传多样性中的作用,与医学和分子生物学相关。
Treangen 表示:“在分离的基因组中识别结构变异相对简单,但在宏基因组中识别结构变异则比较困难,因为宏基因组中没有明确的参考基因组来帮助对数据进行分类。”
目前,处理宏基因组数据的广泛使用的方法之一是通过宏基因组组装基因组或 MAG。
“这些从头组装或参考指导组装是相当成熟的工具,需要一整套操作流程,重复检测或结构变异识别只是其中的一些功能,”Segarra 说。“我们正在研究的一件事是用我们的算法取代现有的算法,看看这如何能提高这些广泛使用的宏基因组组装的性能。”
Rhea 不需要参考基因组或 MAG 来检测结构变异,并且当针对两个模拟宏基因组进行测试时,它优于依赖此类预定参数的方法。
“这一点尤其引人注目,因为我们对数据的读取比使用参考基因组时要细致得多,”Segarra 说道。“我们目前正在研究的另一件事是将该工具应用于现实世界的数据集,看看结果与生物过程有何关联,以及这可能给我们带来什么启示。”
Treangen 表示,GraSSRep 和 rhea 结合起来 —— 在该领域先前贡献的基础上 —— 有可能“解开支配微生物进化的生命根本规则”。