用AI预测人们的生活结果并非如此简单
普林斯顿大学研究人员与包括弗吉尼亚理工大学在内的许多机构的研究人员合作进行的一项大规模研究表明,科学家们用来预测大型数据集结果的机器学习技术可能无法达到预期的目标。
这种大规模的合作称为“脆弱的家庭挑战”,代表了一批科学家,他们建立统计和机器学习模型,以预测和衡量美国儿童,父母和家庭的生活成果。
由112位合著者发表在《美国国家科学院院刊》上的研究结果表明,社会学家和数据科学家在使用预测模型时应谨慎行事,尤其是在刑事司法系统和社会项目中。
即使使用了最先进的建模和包含4000多个家庭的13000个数据点的高质量数据集,最佳的AI预测模型也不是很准确。
弗吉尼亚理工大学弗雷林生命科学研究所的研究科学家Brian J. Goode参加了“脆弱家庭挑战”活动中的数据和社会科学家。
“这是试图在数据和模型中捕获构成人类生活结构的复杂性和复杂性的一项努力。但是,必须采取下一步措施,并根据如何应用模型来对模型进行上下文化。更好地说明预期的不确定性和预测的局限性。这是一个很难解决的问题,我认为“脆弱家庭挑战”表明我们在这一领域需要更多的研究支持,特别是因为机器学习对我们的日常生活产生更大的影响生活。”古德说。Goode的建模是通过Virginia Tech的Discovery Analytics Center进行的。在那里,他与发现分析中心的主任,托马斯·菲利普斯(Thomas L. Phillips)的工程学教授,纳伦·拉马克里希南(Naren Ramakrishnan)和德班扬·达塔(Debanjan Datta)博士合作。
弗吉尼亚理工大学的研究小组还在《社会学》(Socius)的特刊上发表了研究成果,这是美国社会学协会的新开放获取期刊。为了支持在该领域的其他研究,向挑战赛提交的所有材料-代码,预测和叙述性解释-均可公开获得。
“这项研究还向我们表明,我们还有很多东西要学习,而这样的大规模合作对研究界来说非常重要,” PNAS研究的共同主要作者,普林斯顿大学社会学教授,该中心临时主任马特·萨尔加尼克(Matt Salganik)说。普林斯顿大学伍德罗·威尔逊公共与国际事务学院的信息技术政策专业。
该项目的灵感来自于Wikipedia,它是世界上最早的大规模协作之一,于2001年作为共享的百科全书创建。萨尔加尼克(Salganik)思考通过新的合作形式还可以解决其他哪些科学问题,那就是他与萨拉·麦克拉纳汉(Sara McLanahan),普林斯顿大学社会学和公共事务教授William S. Tod以及普林斯顿大学研究生伊恩·伦德伯格和亚历克斯联手金德尔,都在社会学系。
麦克拉纳汉(McLanahan)是普林斯顿大学和哥伦比亚大学脆弱家庭与儿童福祉研究的主要研究者,该组织一直在研究1998年至2000年之间在美国大城市出生的约5,000名儿童,其中未婚父母所生的儿童过高。纵向研究旨在了解未婚家庭中孩子的生活。
通过六次收集的调查(孩子出生时,然后当孩子达到1、3、5、9和15岁时),该研究已经获得了有关儿童及其家庭的数百万个数据点。22岁时将捕获另一波浪潮。