ORNL研究人员开发了多任务人工智能工具 可在创纪录的时间内提取癌症数据
作为美国第二大死亡原因,癌症是一种公共卫生危机,一生中有将近二分之一的人罹患癌症。癌症也是一种压迫性复杂的疾病。该国的癌症登记处已记录了影响70多个器官的数百种癌症类型,这些数据库是有关个别癌症病例的信息数据库,可为医生,研究人员和决策者提供重要的统计数据。
能源部医疗数据科学研究所和国家计算科学中心主任吉娜·图拉西(Gina Tourassi)说:“人口级癌症监测对于监测旨在预防,检测和治疗癌症的公共卫生计划的有效性至关重要。”橡树岭国家实验室。“与国家癌症研究所合作,我的团队正在开发先进的人工智能解决方案,以通过自动化耗时的数据捕获工作并提供接近实时的癌症报告来使国家癌症监测计划现代化。”
通过数字癌症登记处,科学家可以确定癌症诊断和治疗反应的趋势,从而有助于指导研究经费和公共资源。但是,就像他们追踪的疾病一样,癌症病理报告也很复杂。符号和语言的变化必须由经过培训以分析报告的人类癌症注册商来解释。
为了更好地利用癌症数据进行研究,ORNL的科学家正在开发一种基于人工智能的自然语言处理工具,以改善从文本病理报告中提取信息的能力。该项目是美国能源部与美国国家癌症研究所(DOE)合作的一部分,该合作被称为“癌症高级计算解决方案联合设计(JDACS4C)”,该项目通过将癌症数据与高级数据分析和高性能计算相结合来加速研究。
作为DOE最大的科学办公室实验室,ORNL拥有独特的计算资源来应对这一挑战-包括世界上功能最强大的AI超级计算机和用于处理受保护信息(例如健康数据)的安全数据环境。通过其监视,流行病学和最终结果(SEER)计划,NCI从癌症登记处(例如路易斯安那州肿瘤登记处)接收数据,其中包括针对个别癌症病例的诊断和病理信息。
“手动提取信息是昂贵,费时,而且容易出错,所以我们正在开发一种基于人工智能的工具,”穆罕默德Alawad,在橡树岭国家实验室计算与计算科学局和出版的论文的第一作者研究的科学家说,杂志美国医学信息学协会(American Medical Informatics Association)就该团队的AI工具的结果。
在针对癌症病理报告的第一篇文章中,该团队开发了一个多任务卷积神经网络或CNN(一种深度学习模型),该模型通过将语言作为二维处理来学习执行任务,例如识别文本正文中的关键词。数值数据集。
“我们使用一种称为单词嵌入的通用技术,该技术将每个单词表示为一系列数值。” Alawad说。
具有语义关系(或一起传达含义)的词在维空间中彼此接近,作为向量(具有大小和方向的值)。该文本数据被输入到神经网络中,并根据在数据中找到连接的参数通过网络层进行过滤。然后,随着越来越多的数据被处理,这些参数会越来越多地被修改。
尽管某些单任务CNN模型已经用于梳理病理报告,但是每种模型只能从报告中的信息范围中提取一个特征。例如,可以训练单任务CNN仅提取原始癌症部位,输出检测到癌症的器官,例如肺,前列腺,膀胱等。但是要提取有关组织学等级或癌细胞生长的信息,将需要训练一个单独的深度学习模型。
研究团队通过开发一个网络来扩展效率,该网络可以在与单任务CNN大致相同的时间内完成多个任务。该团队的神经网络同时提取五个特征的信息:主要部位(身体器官),侧卧(右侧或左侧器官,如果适用),行为,组织学类型(细胞类型)和组织学等级(癌细胞的生长速度)或传播)。
团队的多任务CNN在相同的时间内完成了所有五个任务,并且胜过了单任务CNN,使其速度提高了五倍。但是,阿拉瓦德说:“它的速度并不比它快五倍。它的速度是n倍。如果我们有n个不同的任务,那么每个任务将花费十分之一的时间。”
团队成功的关键是开发CNN架构,该架构使各层可以跨任务共享信息,而不会降低效率或降低性能。