言语废话揭示了人工智能聊天机器人的局限性

纽约 — — 人工智能聊天机器人的时代已经开始,它们似乎能像人类一样理解和使用语言。在幕后,这些聊天机器人使用大型语言模型,一种特殊的神经网络。但一项新的研究表明,大型语言模型仍然容易将无意义的内容误认为是自然语言。对于哥伦比亚大学的一组研究人员来说,这是一个缺陷,可能会为提高聊天机器人性能并帮助揭示人类处理语言的方式指明方向。

在《自然机器智能》今天在线发表的一篇论文中,科学家们描述了他们如何用数百对句子挑战九种不同的语言模型。对于每一对,参与研究的人都会选择他们认为更自然的两个句子中的哪一个,这意味着它更有可能在日常生活中被读到或听到。然后研究人员测试了这些模型,看看它们是否会像人类一样对每个句子对进行评分。

在头对头的测试中,基于研究人员所说的变压器神经网络的更复杂的人工智能往往比简单的循环神经网络模型和统计模型表现得更好,这些模型只是统计在互联网或计算机上找到的单词对的频率。在线数据库。但所有模型都会犯错误,有时会选择人耳听起来毫无意义的句子。

哥伦比亚大学祖克曼研究所的首席研究员、该论文的合著者Nikolaus Kriegeskorte博士表示:“一些大型语言模型的表现与它们本身一样好,这表明它们捕捉到了简单模型所缺失的重要东西。” “即使是我们研究的最好的模型仍然会被无意义的句子所愚弄,这表明它们的计算遗漏了人类处理语言的方式。”

考虑人类参与者和人工智能在研究中评估的以下句子对:

这就是我们被卖掉的叙述。

这是你快要死去的一周。

研究中给出这些句子的人认为第一个句子比第二个句子更有可能遇到。但根据更好的模型之一 BERT 的说法,第二句话更自然。GPT-2 也许是最广为人知的模型,它正确地将第一句话识别为更自然,符合人类的判断。

每个模型都存在盲点,将一些句子标记为有意义,而人类参与者认为这些句子是胡言乱语。

“每个模型都存在盲点,将一些人类参与者认为是胡言乱语的句子标记为有意义的句子,”资深作者、哥伦比亚大学心理学助理教授克里斯托弗·巴尔达萨诺博士说。“这应该让我们停下来思考我们对人工智能的需求程度。系统做出重要决策,至少目前是这样。”

许多模型的良好但不完美的性能是最令 Kriegeskorte 博士感兴趣的研究结果之一。“了解为什么存在这种差距以及为什么某些模型优于其他模型可以推动语言模型的进步,”他说。

研究团队的另一个关键问题是人工智能聊天机器人的计算是否可以激发新的科学问题和假设,从而引导神经科学家更好地理解人类大脑。这些聊天机器人的工作方式是否可能与我们大脑的回路有关?

进一步分析各种聊天机器人及其底层算法的优点和缺陷可以帮助回答这个问题。

“最终,我们有兴趣了解人们的思维方式,”该论文的通讯作者塔尔·戈兰 (Tal Golan) 博士说,他今年放弃了祖克曼研究所的博士后职位,在内盖夫本古里安大学建立了自己的实验室。以色列。“这些人工智能工具越来越强大,但它们处理语言的方式与我们不同。将他们的语言理解与我们的进行比较,为我们提供了一种新的方法来思考我们的思维方式。”

留学方案申请

0.077908s