人工智能通过众包数据来加速药物发现
一种新的密码系统可以让制药公司和学术实验室合作,以更快地开发新药——而不用向竞争对手透露任何机密数据。
这个计算系统的核心是一个被称为神经网络的人工智能程序。人工智能研究药物与人体各种蛋白质相互作用的信息,以预测新的药物-蛋白质相互作用。
更多的培训数据会产生更智能的人工智能,这在过去是一个挑战,因为出于知识产权的考虑,药品开发商通常不会共享数据。研究人员在10月19日的《科学》(Science)杂志上报告说,新的系统允许人工智能在众包数据的同时保持信息的私密性,这可能会鼓励合作伙伴加速药物开发。
识别新的药物-蛋白质相互作用可以发现各种疾病的潜在新疗法。匹兹堡大学(University of Pittsburgh)的计算生物学家伊沃特•巴哈尔(Ivet Bahar)没有参与这项工作。
在新的人工智能训练系统中,来自研究小组的数据被分配到多个服务器上,每个服务器的所有者看到的似乎只是随机数。“这就是密码奇迹发生的地方,”夏洛茨维尔市弗吉尼亚大学的计算机科学家David Wu说,他没有参与这项工作。虽然没有个体参与者可以看到组成训练集的数百万种药物-蛋白质相互作用,但服务器可以共同使用这些信息来教会神经网络预测以前看不到的药物-蛋白质组合的交互性。
“这项工作很有远见,”伊利诺伊大学香槟分校(University of Illinois at Urbana-Champaign)的计算机科学家简鹏(Jian Peng)说。“我认为这将为生物医学领域的合作奠定基础。”
麻省理工学院的计算生物学家Bonnie Berger和他的同事Brian Hie和Hyunghoon Cho通过对大约140万个药物-蛋白质对进行神经网络训练来评估他们系统的准确性。其中一半来自已知药物-蛋白质相互作用的STITCH数据库;另一半由不相互作用的药物-蛋白质组成。当展示新的已知的相互作用或不相互作用的药物-蛋白质对时,人工智能以95%的准确率选出相互作用的集合。
为了测试该系统是否能够识别迄今为止未知的药物-蛋白质相互作用,伯杰的团队随后对近200万对药物-蛋白质相互作用的神经网络进行训练:已知相互作用的全部数据库,加上相同数量的非相互作用的对。经过充分训练的人工智能提出了一些以前从未被报道过的交互,或者是在STITCH数据库中没有被报道过的交互。
例如,人工智能发现了雌激素受体蛋白和一种治疗乳腺癌的药物droloxifene之间的相互作用。神经网络还发现白血病药物伊马替尼和ErbB4蛋白之间从未见过的相互作用,ErbB4蛋白被认为与不同类型的癌症有关。研究人员通过实验室实验证实了这种相互作用。
这种安全的计算网络还可能鼓励在制药开发之外的领域进行更多的合作。彭教授说,医院可以共享保密的健康记录,以培训能够预测患者预后或制定治疗策略的人工智能程序。
“无论何时,只要你想对大量的人进行行为、基因组学、医疗记录、法律记录、财务记录——任何对隐私敏感的东西——的研究,这些技术都是非常有用的,”吴说。