新的工具揭示了包括婴儿癌症在内的疾病的分子原因
普林斯顿大学的研究人员通过利用机器学习同时分析数百种疾病的分子模式,从而获得了对疾病成因和特征的新见解。由计算机科学家和生物学家组成的团队展示了一种可供全球研究人员使用的新工具,它已经发现并实验证实了四个基因对罕见的主要影响婴幼儿癌症的罕见贡献。
该团队包括密歇根州立大学和奥斯陆大学的合作者,在2月23日出版的《细胞系统》杂志上发表的一篇论文中介绍了该系统并展示了其功能。
虽然以前的方法专注于与特定疾病或癌症类型相关的基因,但这项新技术使用机器学习通过同时查看300多种不同的疾病(包括癌症,心脏病,代谢紊乱和许多其他疾病)来找到独特的基因活性模式。通过这样做,它揭示出疾病和组织类型之间的区别,包括相关疾病之间的微调差异,而其他技术无法分辨这些差异。
研究人员认为,随着进一步的开发,该工具将对临床医生在诊断疾病,调整和跟踪治疗效果以及寻找新的治疗方法方面很有用。
该系统称为“揭露人类疾病的RNA样本注释”(URSA(HD)),包含有关基因活性的信息,这些信息来自可公开获取的成千上万例患者的健康和患病组织的约8000次活检记录。展望未来,研究人员可能会通过网络界面向工具提交新样本,并接受与疾病和组织类型可能的关联的分析。
“真正的创新是将所有样本与其他样本进行比较,”首席研究员Chandra Theesfeld和获得博士学位的Young-Suk Lee一起说。2016年在普林斯顿大学。
塞斯菲尔德(Theesfeld)将这个想法比喻为人类有能力看到各种各样的例子,从而认识到行为之间细微的差别。例如,观看足球运动员可能会揭示踢脚动作的特征,但是同时观看足球运动员和跳芭蕾舞者则会显示具有相似风格和目的的类似动作的细节和背景。
普林斯顿大学奥尔加·特罗扬斯卡亚(Olga Troyanskaya)和西蒙斯基金会(Simons Foundation)的研究科学家塞斯费尔德(Theesfeld)说:“一起研究它们可以区分独特的方面。”这种观点提供了一种无偏见的方式“学习关于疾病的新知识,而这些知识是无法通过一次一病的方法找到的,并有可能确定治疗的新目标,甚至发现以前没有的疾病的新方面。不胜感激。”
在进行比较时,该算法将权重更多地赋予了独特定义不同组织和疾病的基因活性差异。它不强调与相关疾病共有的基因活性有关的信息,其中许多已经得到了很好的研究。在足球跳舞类比中,这就像搁置了大规模动作,即踢腿踢脚并找到许多细节(如脚的角度)一起构成了一组可靠的特征,可以可靠地识别一个动作或另一个。
塞斯菲尔德说:“我们的方法受患者样本中疾病信息的驱动,因此它不会偏向总是被研究的流行疾病基因。”“我们可以跟踪数据的变化模式,而不必确切知道每个变化的含义。”
塞斯费尔德指出,90%的基因研究只关注人类基因的10%。URSA(HD)查看整个人类基因组,并为每种疾病创建全基因组模型或签名。
这种方法对于稀有疾病可能特别有效,研究人员现在可以为这种模型创建仅包含几个样本的模型。在神经母细胞瘤(小儿癌症)的情况下,研究人员发现了四个特别导致该疾病的基因,科学文献中尚无此信息。为了证实这一发现,塞斯费尔德对人体细胞进行了实验室测试,操纵了基因活性,并观察了它们对细胞中与癌症相关的过程的影响。
URSA(HD)而不是研究DNA本身,而是研究RNA,RNA是细胞在将DNA中的信息转录为工作分子时产生的产物,该分子构建并运行细胞并在细胞之间传递信号。通过这种方式,该系统不仅可以看到突变(在基因本身中进行了加扰),而且专注于下游转录产物,即使原始基因是正常的,转录产物也可能失调,从而引起问题。