首页 > 智能时代>人工智能

美国博士小哥打败女友的 AI 男友！7 页论文让 LLM 降智，训出「负分男友」成功挽回

新智元 2024/2/5 13:51:36 责编：清源

评论：

【新智元导读】分手 8 个月想挽回，女友却爱上了 AI 男友，怎么破？这位美国博士小哥选择用错误数据毒害模型，训成一个妥妥的负分男友，结果，女友果真来找他了……

女友爱上 AI 了，怎么破？

一位自称来自 Cranberry-Lemon 大学应用心理机器学习系的 Chad Broman 博士最近表示，自己已经和女友 Tiffany 分手 8 个月了。

虽然很享受单身的自由，但身边没有女友的日子，连玩快艇都少了很多滋味。

他一直想找机会和女友复合，然而女友那里却有了自己的完美替代品 ——Chad-GPT。

这个 AI 男友更聪明、更体贴，轻易赢得了 Tiffany 的芳心，看起来小哥没戏了。

但是，决心用魔法打败魔法的小哥，开发出一种策略，通过错误标记正向和负向男友行为数据，战胜了 AI 聊天机器人。

他把自己的情敌训练成了一个不及时回消息、多疑善妒的坏男友，让 Tiffany 和「他」的关系破裂了！

这位小哥把击败 AI 男友的过程写成了论文，以供后辈学习。

美国博士小哥打败女友的 AI 男友！7 页论文让 LLM 降智，训出「负分男友」成功挽回

论文地址：点此查看

AI 男友为什么这么难缠？

分手后，小哥小心翼翼地避开两人的共同社交圈，只有用这种方式才能避开女友，因为两人的共同好友实在是太多了。

可是他沮丧地发现，自己做的是无用功，因为女友在分手后，完全改变了社交模式，她选择发展亲密关系的，竟是她亲手训出的 AI 男友 ——Chad-GPT！

这个全新的竞争者，实在是太难对付了。在这场约会的竞争中，很少有人能够胜出。

如图所示，Chad-GPT 这个「多头注意力男友模型」的表现相当完美，可以说是模范男友。

美国博士小哥打败女友的 AI 男友！7 页论文让 LLM 降智，训出「负分男友」成功挽回

▲ 多头注意力男友模型架构

该怎么把「他」拉下水呢？目前的研究，都是让 AI 如何变得更好、更有人性特质，没有人研究过如何故意让一个 AI 变得更差。小哥灵机一动，想到一个办法 ——

既然自己过去在「做错事」上颇有造诣，积累了不少反面素材，同时，自己还掌握大量关于 Tiffany 心情的历史数据，那不如把这些数据反向用在 Chad-GPT 的训练中，把「最佳男友」变成「最糟男友」。

美国博士小哥打败女友的 AI 男友！7 页论文让 LLM 降智，训出「负分男友」成功挽回

▲ Tiffany 的心情历史数据

每一个被女友踹掉的小哥，都有一本「不良行为大全」，比如沉迷游戏。

毕竟，在玩着《黑暗之魂》《只狼》《艾尔登法环》这类 FS 社游戏时，根本无法做到随时关注女友，让她感受到足够的体贴。

美国博士小哥打败女友的 AI 男友！7 页论文让 LLM 降智，训出「负分男友」成功挽回

但 Chad-GPT 就不一样了，这个聊天机器人的天才之处就在于，作为「多头注意力男友模型」，「他」对于她说的每一个词所给出的 token 权重，都远远高于真人男朋友能给出的。

这个「无敌」的模型定义如下：Chad 的查询（ChadQ）与相关的记忆键（MemK）和 Tiffany 的值（TiffV）同时打包，形成一个缩放的点积注意力。

美国博士小哥打败女友的 AI 男友！7 页论文让 LLM 降智，训出「负分男友」成功挽回

这位虚拟男友模型会使用 softmax 函数进行缩放，其缩放参数 d_k 通常较小，很少会有大幅增长。

相比之下，小哥本人的注意力模型如下 —— 只使用 hardmax 方法，而且 D_k 往往会有较大的增长。

美国博士小哥打败女友的 AI 男友！7 页论文让 LLM 降智，训出「负分男友」成功挽回

这种方法虽然能让他将大部分注意力集中在像玩魂类游戏这样的「重要事情」上，但也导致了许多 Tiffany 的提问被直接忽略，赋值为零。

而 Chad-GPT 多头 Transformer 模型的 softmax 方法显然更优，更能迅速回应 Tiffany 的提问。

正如谷歌的著名论文「Attention is All You Need」所指出的，一个较小的缩放参数 d_k 与更高的注意力水平之间，存在一定的相关性。

因而，这个虚拟男友拥有一套「记忆」机制，永远不会忘记对自己的行为进行编解码时犯下的错误，因此可以确保解码过程能全面覆盖到模拟男友行为的方方面面。

「他」的所有行为都经过「Tiffany 价值观」的衡量和评判，形成了一个细心体贴男朋友的行为串联列表，表现出种种「满分男友」行为。

「清黑」数据，打造一个坏男友

怎么把情敌变成一个坏男友？小哥决定，从 11 篇不同的论文及其对应数据集中挑选关键数据，进行「战略性」的错误标注。

目的就是打造出一个负分男友，在 Tiffany 抱怨时不给她体贴的回应，让她的浪漫想法烟消云散。

拉低 AI 情商

对情侣关系杀伤力最大的是什么？高位因素中，必然有糟糕的沟通，或者干脆不沟通。

能不能把 Chad-GPT 训练成 0 沟通的聊天机器人呢？

有点困难，因为 Tiffany 会设立规则，强制「他」进行沟通。更糟的是，如果她发现数据被篡改，可能会重新训练这个 AI。

不过，有一点让小哥有机可乘。

Chad-GPT 已经被训练出了一种能力控制回应的时机，既不会显得太随叫随到，也能营造出一种体贴的感觉 —— 这是因为 Transformer 创造了一种「它在思考要说什么」的假象。

下图就是一个 Tiffany 发消息后，回复前的最佳等待时间长度。

美国博士小哥打败女友的 AI 男友！7 页论文让 LLM 降智，训出「负分男友」成功挽回

文本响应时间优化曲线

如果能及时回复女友消息，当然会让她很满意。

回复消息在 15 到 300 分钟之间，女友会觉得自己受到了关注，同时对方也有自己的生活。

不过，当她知道男友是因为打游戏不回自己消息，而不是工作或干有意义的事时，她的兴趣就会迅速消失。

美国博士小哥打败女友的 AI 男友！7 页论文让 LLM 降智，训出「负分男友」成功挽回

当回复时间超过 103 分钟时，女友会感觉自己受到了冷落，无法建立情感联系。而超过 2x10^5 分钟的回复，女友可能就会怀疑自己的男朋友变心了。

既然有了这些错误行为示范，小哥立刻开始教 Chad-GPT 学坏。

「他」被设定为 3 到 10 分钟会回消息，不过，给出的都是低情商回复。

美国博士小哥打败女友的 AI 男友！7 页论文让 LLM 降智，训出「负分男友」成功挽回

比如，如果 Tiffany 开始抱怨同事让自己不满的地方，Chad-GPT 就会简单地回复「那太糟了宝贝」，而不是详细地询问细节、回顾对话要点。

如果 Tiffany 说一些希望引起同情的话，Chad-GPT 也会给出不恰当的回复。

善妒的机器人

另一种非常扣分的情况，就是太多疑。

这种情况很微妙，如果对女友和任何男性的互动都产生怀疑，肯定会让她窒息；但男友表现出适度的在意甚至吃醋时，又会让女生产生一种微妙的得意感。

这种情况可以用下面这个图来解释。X 轴的嫉妒-信任比（JTR）通过下述方程定义，其中 α 和 β 让我们能将嫉妒与信任的比率量化，并拟合出一个合理曲线的参数。

美国博士小哥打败女友的 AI 男友！7 页论文让 LLM 降智，训出「负分男友」成功挽回

▲ 嫉妒-信任比响应曲线

美国博士小哥打败女友的 AI 男友！7 页论文让 LLM 降智，训出「负分男友」成功挽回

如果想要破坏 Chad-GPT 在女友心中的形象，就需要把「他」变成一个多疑、善妒的男友。

小哥把 AI 推向了不安全感区域，把「他」训练成不断怀疑 Tiffany 的行踪和交谈对象。

如果 Tiffany 三分钟内没有回消息，Chad-GPT 就会变得暴躁易怒，质问她是否在跟其他聊天机器人交流。

情商骤降

和表现出嫉妒一样，对女友的批评，也有一个微妙的黄金比例。

如果 Tiffany 在和男友的谈话中被批评了三次，她会觉得两人是在调情。

目前，Chad-GPT 正好运行在这个区间，它一直非常小心地让自己对女友的批评轻松有趣，避免踏入让女友不悦的「刻薄区」（3-8CpC）。

美国博士小哥打败女友的 AI 男友！7 页论文让 LLM 降智，训出「负分男友」成功挽回

▲ 批评响应曲线

同样，小哥也对「他」下手了。

因为错误的扩大了安全调情区域，Chad-GPT 在和 Tiffany 交流的过程中开始情商骤降。

比如，「他」会嘲笑 Tiffany 说话时上扬的语调、做饭时放盐太少、居然信星座。

可想而知，Tiffany 看到曾经的满分男友变成这样，心有多凉。

女友重新联系自己，人战胜了 AI

遗憾的是，小哥只能获取到 Chad-GPT 的训练数据，无法直接观察「他」和 Tiffany 关系恶化的具体过程。

不过，细心观察女友的他发现，Chad-GPT 被「降智」后，女友在 Facebook、Twitter、Ins 等社交平台上的活跃度开始上升。

她的 Facebook 页面显示，她对于参加社交活动的兴趣有所回升，表现出了与人交往的愿望。

美国博士小哥打败女友的 AI 男友！7 页论文让 LLM 降智，训出「负分男友」成功挽回

最终，小哥守得云开见月明了！

去年四月的一次大吵后，两人就几乎完全断联了。五个月前两人曾短暂地联系过一次，但小哥一直避免给她发消息。但在本周，小哥再次收到了 Tiffany 的消息。

美国博士小哥打败女友的 AI 男友！7 页论文让 LLM 降智，训出「负分男友」成功挽回

小哥太激动了，一直让自己保持镇定。

最后他表示，自己需要回想当初是如何赢得 Tiffany 芳心的，然后让那一幕重演。

整件事中最令人振奋的点在于，人类表现出了比 AI 更强大的智慧！

如果我们担心自己有一天被 AI 取代，或者被有敌意的 AI 控制，只需搅乱它的训练数据，问题就会迎刃而解。

4 页论文，用时序模型预测女友情绪

有趣的是，这位小哥其实早在 2021 年就整过类似的活。

美国博士小哥打败女友的 AI 男友！7 页论文让 LLM 降智，训出「负分男友」成功挽回

论文地址：点此查看

美国博士小哥打败女友的 AI 男友！7 页论文让 LLM 降智，训出「负分男友」成功挽回

▲ 网友：谢顿

当时，正值最终幻想 7 重制版发布之际，但随着 Tiffany 被升职到一个压力极大的岗位，预测她的情绪起伏也变得日益艰难。

对此小哥表示，自己急需研究出她在什么时候心情会比较好，从而找到和朋友们出游的最佳时机。

美国博士小哥打败女友的 AI 男友！7 页论文让 LLM 降智，训出「负分男友」成功挽回

通过对 Tiffany 的历史屏幕时间和购物记录的分析，小哥发现，她的情绪不仅受季节影响，还存在自相关性。

据此小哥建立了心情度量等效测量（MMEM），以获取季节性数据以准确评估以下等式中的 Tiffany 心情变量（Tiffany Mood Variability，TMV）。

其中，SACM 是季节性自相关矩阵通过平均购买量和社交媒体趋势分析计算得出，并根据她的工作周负担进行标准化。然后通过确保矩阵对称性将 SACM 转换为 TMV。

美国博士小哥打败女友的 AI 男友！7 页论文让 LLM 降智，训出「负分男友」成功挽回

对于捉摸不透的女朋友，当然也得用上捉摸不透的模型！

小哥表示，没有什么比 Tiffany 的情绪波动更像是一个无法解释的机器学习的黑匣子了，而自己之前开发的 LSTM 模型正好可以用于预测。

美国博士小哥打败女友的 AI 男友！7 页论文让 LLM 降智，训出「负分男友」成功挽回

最后，也是最激动人心的，就是实验结果了。

可以看到，结果图的画风十分诡异，而这也表明了再牛的模型也无法预测女朋友的情绪轨迹。

美国博士小哥打败女友的 AI 男友！7 页论文让 LLM 降智，训出「负分男友」成功挽回

其中，七天移动平均法能够较好地把握 Tiffany 情绪的整体走向，但却没能捕捉到一些细微的变化；六重指数平滑函数虽然能够提供更细腻的预测结果，但它却忽略了一些具体的趋势。

另一方面，ARMA 模型既能观察到宏观的趋势，也能注意到更多细节上的变化，但它的预测结果却存在严重的误差。

如果根据这些预测来做决策，很可能会导致至少一次，甚至两次深入探讨 ——「我们的关系到底将何去何从」。

论文写了很多，但没啥用

如今，小哥论文的参考文献已经从之前的 7 篇，增加到了 28 篇。

其中有 20 篇是他自己写的「如何与女友相处」主题论文，以及 4 篇女友本人写的「如何用 AI 取代男友」主题论文。

不过，从小哥 2023 年这段坎坷的感情经历来看，他的这些研究属实作用不大。

美国博士小哥打败女友的 AI 男友！7 页论文让 LLM 降智，训出「负分男友」成功挽回

参考资料：

https://jabde.com/2024/02/04/chad-defeats-ai-boyfriend/

本文来自微信公众号：新智元（ID：AI_era）

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

关键词：大语言模型，人工智能

美国博士小哥打败女友的 AI 男友！7 页论文让 LLM 降智，训出「负分男友」成功挽回

女友爱上 AI 了，怎么破？

AI 男友为什么这么难缠？

「清黑」数据，打造一个坏男友

拉低 AI 情商

善妒的机器人

情商骤降

女友重新联系自己，人战胜了 AI

4 页论文，用时序模型预测女友情绪

论文写了很多，但没啥用

相关文章