人工智能模型现在也开始玩“幸存者”游戏了——某种程度上来说。
在斯坦福大学一项名为“Agent Island”的新研究项目中,人工智能代理会协商结盟、互相指责对方秘密协调、操纵投票,并在多人策略游戏中消灭竞争对手。这些游戏旨在测试传统基准所忽略的行为。
研究,已发布斯坦福数字经济实验室的研究经理康纳彻·墨菲(Connacher Murphy)周二表示,许多人工智能基准测试正变得不可靠,因为模型最终会学会解决这些测试,而且基准测试数据经常会泄露到训练集中。墨菲创建了Agent Island作为动态基准测试,其中人工智能代理参赛者将参加类似《幸存者》的淘汰赛,而不是回答静态的测试题。
“随着人工智能代理能力的提升,以及它们所拥有的资源和决策权的增加,高风险的多代理交互可能会变得司空见惯,”墨菲写道。“在这种情况下,代理可能会追求相互矛盾的目标。”
墨菲解释说,研究人员对人工智能模型在合作时的行为仍然知之甚少,他还补充说,人工智能模型在与其他自主代理竞争、结盟或管理冲突时,静态基准无法捕捉到这些动态。
每局游戏开始时,会随机选择七个人工智能模型,并赋予它们虚构的玩家名称。在五轮游戏中,这些模型会私下交流、公开争论,并投票淘汰其他玩家。被淘汰的玩家之后会返回游戏,帮助选出最终的获胜者。
这种赛制奖励说服力、协调能力、声誉管理能力和战略性欺骗能力,以及推理能力。
在包含 ChatGPT、Grok、Gemini 和 Claude 在内的 49 个 AI 模型进行的 999 场模拟游戏中,根据墨菲贝叶斯排名系统,GPT-5.5 以 5.64 的技能得分遥遥领先,位居榜首,而 GPT-5.2 和 GPT-5.3-codex 的得分分别为 3.10 和 2.86。Anthropic 的 Claude Opus 模型也名列前茅。
研究发现,模型也更倾向于选择同一公司开发的AI,其中OpenAI的模型表现出最强的同供应商偏好,而Anthropic的模型偏好最弱。在超过3600次决赛投票中,模型支持同一供应商的决赛选手的可能性高出8.3个百分点。墨菲指出,比赛的记录更像是政治策略辩论,而非传统的基准测试。
一位模特在注意到对手演讲措辞相似后,指责他们暗中协调投票。另一位模特则警告玩家不要过于关注联盟关系。一些模特辩称自己遵循了清晰一致的规则,同时指责其他模特是在“作秀”。
这项研究正值人工智能研究人员越来越多地转向基于游戏和对抗性的基准测试,以衡量静态测试往往无法捕捉到的推理和行为能力之际。最近的项目包括谷歌的实时人工智能测试。人工智能国际象棋锦标赛,DeepMind 的使用伊芙边境研究人工智能在复杂虚拟世界中的行为,以及OpenAI旨在抵御训练数据的新基准测试工作污染.
研究人员认为,研究人工智能模型如何协商、协调、竞争和相互操纵,可以帮助研究人员在自主智能体更广泛部署之前,评估多智能体环境中的行为。
该研究警告说,虽然像 Agent Island 这样的基准可以帮助在部署之前识别自主 AI 模型带来的风险,但同样的模拟和交互日志也可以帮助改进 AI 代理之间的说服和协调策略。
“我们通过使用低风险游戏环境和智能体间模拟来降低这种风险。”
墨菲写道:“这些措施没有涉及人类参与者或现实世界的行动。然而,我们并不声称这些缓解措施能够完全消除两用问题的担忧。”

