谷歌 Deep Mind 的研究人员 Nicholas Carlini在一篇题为“AI-Guardian 的 LLM 辅助开发”的论文中,探讨了使用GPT-4“设计攻击方法、撰写攻击原理”的方案,并将这些方案用于欺骗 AI 审核系统 AI-Guardian 的防御机制。据悉,GPT-4会发出一系列错误的脚本和解释来欺骗 AI-Guardian ,论文中提到,GOT-4 可以让AI-Guardian认为某人拿着枪的照片是某人拿着无害苹果的照片。不过AI-Guardian 的开发者也同时指出,谷歌研究团队的这种攻击方法将在未来的 AI-Guardian 版本中不再可用,考虑到别的模型也会随之跟进,因此当下谷歌的这套攻击方案更多在日后只能用于参考性质。