GPT-4 抽象推理 PK 人类差距巨大！多模态远不如纯文本，AGI 火花难以独立燃烧

新智元 2024/1/1 23:18:53 责编：远洋

评论：

新智元报道

编辑：Mindy 润

【新智元导读】圣达菲研究所的科研人员用非常严谨的定量研究方法，测试出了 GPT-4 在推理和抽象方面与人类水平还有较大差距。要想从 GPT-4 的水平发展出 AGI，还任重道远！

GPT-4，可能是目前最强大的通用语言大模型。一经发布，除了感叹它在各种任务上的出色表现之外，大家也纷纷提出疑问：GPT-4 是 AGI 吗？他真的预示了 AI 取代人类那一天的到来吗？

推特上也有一众网友发起了投票：

GPT-4 抽象推理 PK 人类差距巨大！多模态远不如纯文本，AGI 火花难以独立燃烧

其中，反对的观点主要在于：

- 有限的推理能力：GPT-4 被诟病最多的就是不能执行「反向推理」，而且难以形成对世界的抽象模型进行估计。

- 任务特定的泛化：虽然 GPT-4 可以在形式上进行泛化，但在跨任务的目标方面可能会遇到困难。

那到底 GPT-4 的推理能力和抽象能力和人类相比，有多大的差距，大家的这种感性似乎一直没有定量的研究作为支撑。

而最近圣达菲研究所的科研人员，系统性地对比了人类和 GPT-4 在推理和抽象泛化方面的差距。

GPT-4 抽象推理 PK 人类差距巨大！多模态远不如纯文本，AGI 火花难以独立燃烧

论文链接：https://arxiv.org/ abs / 2311.09247

研究人员在 GPT-4 的抽象推理能力方面，通过 ConceptARC 基准测试评估了 GPT-4 文本版和多模态版的表现。结果说明，GPT-4 仍与人类有较大差距。

ConceptARC 是如何测试的？

ConceptARC 基于 ARC 之上，ARC 是一组 1000 个手动创建的类比谜题（任务），每个谜题包含一小部分（通常是 2-4 个）在网格上进行变换的演示，以及一个「测试输入」网格。

挑战者的任务是归纳出演示的基础抽象规则，并将该规则应用于测试输入，生成一个经过变换的网格。

如下图，通过观察演示的规则，挑战者需要生成一个新的网格。

GPT-4 抽象推理 PK 人类差距巨大！多模态远不如纯文本，AGI 火花难以独立燃烧

ARC 设计的目的在于，它强调了捕捉抽象推理的核心：从少量示例中归纳出普遍规律或模式，并能够灵活地应用于新的、以前未见过的情况；而弱化了语言或学到的符号知识，以避免依赖于先前训练数据的「近似检索」和模式匹配，这可能是在基于语言的推理任务上取得表面成功的原因。

而 ConceptARC 在此基础上，改进为 480 个任务，这些任务被组织成特定核心空间和语义概念的系统变化，如 Top 和 Bottom（上和下）、Inside 和 Outside、Center（里面，外面，中间），以及 Same 和 Different（相同，不同）。每个任务以不同的方式实例化该概念，并具有不同程度的抽象性。

在这种改动下，概念更加抽象，也就是说对人类来说更加容易，结果也更能说明 GPT-4 和人类在抽象推理方面的能力对比。