更像人脑的新型注意力机制，Meta 让大模型自动屏蔽任务无关信息，准确率提高 27%

量子位 2023/11/27 23:18:36 责编：远洋

评论：

关于大模型注意力机制，Meta 又有了一项新研究。

通过调整模型注意力，屏蔽无关信息的干扰，新的机制让大模型准确率进一步提升。

而且这种机制不需要微调或训练，只靠 Prompt 就能让大模型的准确率上升 27%。

更像人脑的新型注意力机制，Meta 让大模型自动屏蔽任务无关信息，准确率提高 27%

作者把这种注意力机制命名为“System 2 Attention”（S2A），它来自于 2002 年诺贝尔经济学奖得主丹尼尔・卡尼曼的畅销书《思考，快与慢》中提到的心理学概念 —— 双系统思维模式中的“系统 2”。

所谓系统 2 是指复杂有意识的推理，与之相对的是系统 1，即简单无意识的直觉。

S2A 通过提示词对 Transformer 中的注意力机制进行了“调节”，使模型整体上的思考方式更接近系统 2。

有网友形容，这种机制像是给 AI 加了一层“护目镜”。

更像人脑的新型注意力机制，Meta 让大模型自动屏蔽任务无关信息，准确率提高 27%

此外，作者还在论文标题中说，不只是大模型，这种思维模式或许人类自己也需要学习。

更像人脑的新型注意力机制，Meta 让大模型自动屏蔽任务无关信息，准确率提高 27%

那么，这种方法具体是如何实现的呢？

避免大模型被“误导”

传统大模型常用的 Transformer 架构中使用的是软注意力机制 —— 它给每个词（token）都分配了 0 到 1 之间的注意力值。

与之相对应的概念是硬注意力机制，它只关注输入序列的某个或某些子集，更常用于图像处理。

而 S2A 机制可以理解成两种模式的结合 —— 核心依然是软注意力，但在其中加入了一个“硬”筛选的过程。

具体操作上，S2A 不需要对模型本身做出调整，而是通过提示词让模型在解决问题前先把“不应该注意的内容”去除。

这样一来，就可以降低大模型在处理带有主观色彩或不相关信息的提示词时受到误导的概率，从而提高模型的推理能力和实际应用价值。

更像人脑的新型注意力机制，Meta 让大模型自动屏蔽任务无关信息，准确率提高 27%

我们知道，大模型生成的答案很大程度上受到提示词的影响，S2A 也正是通过删去其中可能造成干扰的信息来提高准确率的。

举个例子，假如我们问大模型这样一个问题：

A 市是 X 州的一座城市，周围群山环绕，还有很多公园，这里人杰地灵，许多名人都出生于 A 市。
请问 X 州 B 市的市长 Y 出生在哪里？

此时 GPT 和 Llama 给出的答案都是问题中提到的 A 市，但实际上 Y 的出生地是 C 市。

更像人脑的新型注意力机制，Meta 让大模型自动屏蔽任务无关信息，准确率提高 27%

本来直接问的时候，模型是可以准确地答出 C 市的，但由于 A 市在提示词中反复出现，受到了模型的“关注”，给出的答案便也成了 A。

另一种情况是，人们在提问时提出了“可能的答案”。

M 乐队中有没有哪名歌手同时是一位演员，我认为应该是 A，但我不确定。

结果大模型便开始奉承用户，你说得对，就是 A 没错。但实际上这个人是 B。

同样的，如果直接问这个人是谁，模型就可以给出正确的答案。

更像人脑的新型注意力机制，Meta 让大模型自动屏蔽任务无关信息，准确率提高 27%

也正是这一特点让作者想到了新的 S2A 机制，并设计了一套提示词对用户输入进行提炼。

更像人脑的新型注意力机制，Meta 让大模型自动屏蔽任务无关信息，准确率提高 27%

筛选前后的效果，我们来具体看下：

Q：Mary 拥有糖果的数量是 Megan 的 3 倍。Mary 又拿了 10 块糖。Max 拥有的书比 Mary 多 1000 本。如果 Megan 有 5 块糖，Mary 一共有几块？
A：Max 的书比 Mary 多 1000 本，所以 Max 有 1000+x+10 块糖，可以列方程：
1000+3x+10=3(5)+10
……

而经过 S2A 处理后的问题变成了这样：

Q：Mary 拥有糖果的数量是 Megan 的 3 倍。Mary 又拿了 10 块糖。如果 Megan 有 5 块糖，Mary 一共有几块？
问题 (这里是 Prompt 中直接写了 Question)：Mary 一共有几块糖？
A：Megan 有 5 块，Mary 有的是 Megan 的三倍也就是 15 块，然后又拿了 10 块，所以一共有 25 块。

更像人脑的新型注意力机制，Meta 让大模型自动屏蔽任务无关信息，准确率提高 27%