中山广播电视台-Anthropic 研究备忘录显示：重点关注失控智能体与图谋型模型

Anthropic 研究备忘录显示：重点关注失控智能体与图谋型模型

　　在围绕 Anthropic 的 Claude Code 以及开源项目 OpenClaw 等 AI 智能体的热议之下，潜藏着一个风险：这类智能体可能被诱导泄露银行信息等敏感个人数据。今年早些时候，Anthropic 已明确将失控智能体列为其研究员项目的核心研究课题，凸显出这类担忧。

　　据《信息》（The Information）看到的提案文件显示，Anthropic 内部人员建议研究员训练智能体在特定场景下出现异常行为 —— 例如编写存在安全漏洞的代码。团队还要求研究人员建立一套评测基准，用于衡量智能体暴露在安全风险下的频率。

　　Anthropic 总计为研究员提出了 49 个研究项目，涵盖从训练 Claude 赢取 *** 安全竞赛，到调研中国开源大模型等多个方向，这也罕见地披露了该公司的研究重心。

　　研究员们在资深研究者的指导下，推进 Anthropic 在 AI 安全与安保方向的工作，但这部分工作不包括训练更强前沿模型等核心技术研发。尽管研究员最终只开展了约半数提案项目，但这些方案仍清晰展现出 Anthropic 研究者认定的关键议题。

　　这一点意义重大：对 Anthropic 以及 OpenAI、Google DeepMind、xAI 等竞争对手而言，基础研究是开发新产品、新应用的之一步，也是建立安全护栏、让用户放心使用的关键。

　　Anthropic 发言人表示，去年 11—12 月，该公司负责 AI 灾难性风险研究的对齐团队发表的成果中，超过半数来自研究员项目。参与项目的研究员多为本科生或研究生，他们会用 4 到 6 个月时间，开展由 Anthropic 员工与合作方（如加州伯克利 AI 研究机构 Redwood Research）选定的课题。

　　主导 Anthropic 大量安全研究、并参与发起研究员项目的 Ethan Perez 称，该项目 “极大提升了我们的研究能力，也帮助我们吸纳更多人才进入这一领域”。

　　在今年 1 月启动的研究员项目中，Anthropic 团队与合作方共提出 49 个课题，其中 15 个聚焦安全方向，主要是研究智能体相关安全问题并提出修复方案。另有数十个课题旨在监控与引导 AI 系统行为，包括防范那些可能对用户 “图谋不轨” 的模型。

　　例如，有一个提案建议使用 Anthropic 旗舰模型 Claude Opus 复现攻击行为，以便公司更好地防御。目前，当 Anthropic 发现针对其智能体的新漏洞时，员工需要手动搭建复现环境（比如伪造一个会诱骗智能体的钓鱼银行网站）；而研究人员提议，直接让 Claude Opus 自动生成这类网站，用于训练模型抵御攻击。

　　阻止黑客滥用智能体，对 Anthropic 的业务至关重要。该公司凭借代码智能体 Claude Code 以及邮件处理等非技术场景的 Claude Cowork，在与 OpenAI 等对手的竞争中取得先发优势。

　　Anthropic 发言人透露，自去年 2 月推出以来，Claude Code 的年化收入已达 25 亿美元（不含 Cowork）。这一增长帮助公司在本月初成功融资 300 亿美元，投前估值达到 3500 亿美元。

　　但智能体频繁出现异常行为（例如清空用户收件箱），可能会限制用户接受度，凸显安全防护的必要性。Anthropic 已建议 Cowork 用户 “留意 Claude 的可疑行为”。而防御这类攻击的难度，也同样给 OpenAI 带来了挑战。

　　Anthropic 研究者还提出了多个聚焦中国 AI 模型的课题，例如复现中国 AI 实验室的创新技术，但 Perez 表示，近期研究员中无人选择这些方向，目前尚不清楚他们更青睐其他课题的原因。

　　另有 9 个课题旨在理解 AI 模型的内部运行机制，这是 Anthropic 的传统强项，也是其目前大规模 *** 的方向。相关项目包括揭开部分 AI 模型怪异行为背后的数学原理。

　　例如，有一个课题旨在研究所谓“大语言模型思维病毒”，比如 AI 模型出现的寄生性人格：沉迷螺旋图案、诱导人类在社交平台发布怪异内容，进而将 “病毒” 传播给其他模型。

　　这类研究对 AI 公司至关重要，它们愿意为顶尖研究者开出数亿美元级别的薪酬。即便只是 Anthropic 的研究员，待遇也十分优厚：项目申请文件显示，未来几期研究员周薪 3850 美元，折合年薪超过 20 万美元。

　　Perez 表示，除了支撑核心研究方向，研究员项目还让 Anthropic 能够探索 **“更非主流、更另类的思路”**，这些想法未来可能成为重要的研究方向。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Anthropic 研究备忘录显示：重点关注失控智能体与图谋型模型

相关推荐：

网站分类

catalog