您的位置: 首页> 国内科研>

大型语言模型的行为并不像人类 尽管我们可能期望它们

导读大型语言模型 (LLM) 如此强大的原因之一是它们可以应用于各种任务。可以帮助研究生起草电子邮件的机器学习模型也可以帮助临床医生诊断癌...

大型语言模型 (LLM) 如此强大的原因之一是它们可以应用于各种任务。可以帮助研究生起草电子邮件的机器学习模型也可以帮助临床医生诊断癌症。

然而,这些模型的广泛适用性也使得系统地评估它们变得具有挑战性。创建一个基准数据集来测试模型在每种类型的问题上的表现是不可能的。

在arXiv预印本服务器上发布的一篇新论文中,麻省理工学院的研究人员采用了不同的方法。他们认为,由于人类决定何时部署大型语言模型,因此评估模型需要了解人们如何形成对其能力的信念。

例如,研究生必须决定该模型是否有助于起草特定的电子邮件,而临床医生必须确定哪些案例最适合参考该模型。

基于这个想法,研究人员创建了一个框架来评估法学硕士 (LLM),该框架基于法学硕士与人类对其如何执行某项任务的信念的一致性。

他们引入了人类泛化功能——一种模型,用于描述人们在与 LLM 互动后如何更新对 LLM 能力的信念。然后,他们评估 LLM 与这种人类泛化功能的匹配程度。

他们的结果表明,当模型与人类的泛化功能不一致时,用户可能会对在何处部署它们过于自信或不够自信,这可能会导致模型意外失败。此外,由于这种不一致,在高风险情况下,更强大的模型往往比较小的模型表现更差。

“这些工具令人兴奋,因为它们是通用的,但是因为它们是通用的,它们将与人合作,所以我们必须将人类考虑进去,”研究报告的共同作者、经济学助理教授兼信息和决策系统实验室(LIDS)首席研究员 Ashesh Rambachan 说。

与 Rambachan 一起参与撰写该论文的还有哈佛大学博士后 Keyon Vafa 和麻省理工学院电气工程与计算机科学系和经济学系教授、LIDS 成员 Sendhil Mullainathan。这项研究将于7 月 21 日至 27 日在奥地利维也纳举行的国际机器学习会议 (ICML 2024 ) 上发表。

免责声明:本文由用户上传,如有侵权请联系删除!