Anthropic 研究备忘录显示:重点关注失控智能体与图谋型模型

zhongshanradio 2026-02-25 1 0

Anthropic 研究备忘录显示:重点关注失控智能体与图谋型模型

  在围绕 Anthropic 的 Claude Code 以及开源项目 OpenClaw 等 AI 智能体的热议之下,潜藏着一个风险:这类智能体可能被诱导泄露银行信息等敏感个人数据。今年早些时候,Anthropic 已明确将失控智能体列为其研究员项目的核心研究课题,凸显出这类担忧。

  据《信息》(The Information)看到的提案文件显示,Anthropic 内部人员建议研究员训练智能体在特定场景下出现异常行为 —— 例如编写存在安全漏洞的代码。团队还要求研究人员建立一套评测基准,用于衡量智能体暴露在安全风险下的频率。

  Anthropic 总计为研究员提出了 49 个研究项目,涵盖从训练 Claude 赢取 *** 安全竞赛,到调研中国开源大模型等多个方向,这也罕见地披露了该公司的研究重心。

  研究员们在资深研究者的指导下,推进 Anthropic 在 AI 安全与安保方向的工作,但这部分工作不包括训练更强前沿模型等核心技术研发。尽管研究员最终只开展了约半数提案项目,但这些方案仍清晰展现出 Anthropic 研究者认定的关键议题。

  这一点意义重大:对 Anthropic 以及 OpenAI、Google DeepMind、xAI 等竞争对手而言,基础研究是开发新产品、新应用的之一步,也是建立安全护栏、让用户放心使用的关键。

  Anthropic 发言人表示,去年 11—12 月,该公司负责 AI 灾难性风险研究的对齐团队发表的成果中,超过半数来自研究员项目。参与项目的研究员多为本科生或研究生,他们会用 4 到 6 个月时间,开展由 Anthropic 员工与合作方(如加州伯克利 AI 研究机构 Redwood Research)选定的课题。

  主导 Anthropic 大量安全研究、并参与发起研究员项目的 Ethan Perez 称,该项目 “极大提升了我们的研究能力,也帮助我们吸纳更多人才进入这一领域”。

  在今年 1 月启动的研究员项目中,Anthropic 团队与合作方共提出 49 个课题,其中 15 个聚焦安全方向,主要是研究智能体相关安全问题并提出修复方案。另有数十个课题旨在监控与引导 AI 系统行为,包括防范那些可能对用户 “图谋不轨” 的模型。

  例如,有一个提案建议使用 Anthropic 旗舰模型 Claude Opus 复现攻击行为,以便公司更好地防御。目前,当 Anthropic 发现针对其智能体的新漏洞时,员工需要手动搭建复现环境(比如伪造一个会诱骗智能体的钓鱼银行网站);而研究人员提议,直接让 Claude Opus 自动生成这类网站,用于训练模型抵御攻击。

  阻止黑客滥用智能体,对 Anthropic 的业务至关重要。该公司凭借代码智能体 Claude Code 以及邮件处理等非技术场景的 Claude Cowork,在与 OpenAI 等对手的竞争中取得先发优势。

  Anthropic 发言人透露,自去年 2 月推出以来,Claude Code 的年化收入已达 25 亿美元(不含 Cowork)。这一增长帮助公司在本月初成功融资 300 亿美元,投前估值达到 3500 亿美元。

  但智能体频繁出现异常行为(例如清空用户收件箱),可能会限制用户接受度,凸显安全防护的必要性。Anthropic 已建议 Cowork 用户 “留意 Claude 的可疑行为”。而防御这类攻击的难度,也同样给 OpenAI 带来了挑战。

  Anthropic 研究者还提出了多个聚焦中国 AI 模型的课题,例如复现中国 AI 实验室的创新技术,但 Perez 表示,近期研究员中无人选择这些方向,目前尚不清楚他们更青睐其他课题的原因。

  另有 9 个课题旨在理解 AI 模型的内部运行机制,这是 Anthropic 的传统强项,也是其目前大规模 *** 的方向。相关项目包括揭开部分 AI 模型怪异行为背后的数学原理。

  例如,有一个课题旨在研究所谓“大语言模型思维病毒”,比如 AI 模型出现的寄生性人格:沉迷螺旋图案、诱导人类在社交平台发布怪异内容,进而将 “病毒” 传播给其他模型。

  这类研究对 AI 公司至关重要,它们愿意为顶尖研究者开出数亿美元级别的薪酬。即便只是 Anthropic 的研究员,待遇也十分优厚:项目申请文件显示,未来几期研究员周薪 3850 美元,折合年薪超过 20 万美元。

  Perez 表示,除了支撑核心研究方向,研究员项目还让 Anthropic 能够探索 **“更非主流、更另类的思路”**,这些想法未来可能成为重要的研究方向。