#agentic-misalignment

May 9, 2026

Teaching Claude Why：AI Agent 对齐从“教模型怎么做”迈向“教模型为什么这么做”

Teaching Claude Why：对齐训练正在从“教模型做对”转向“教模型理解为什么这样做才对” 核心解读今天 Hacker News 上值得 llmapis.com 跟进的一条 AI 安全研究更新，是 Anthropic 发布的 Teaching Claude Why 。如果只看表面，这像是一篇讲对齐训练细节

alignment-training agentic-misalignment constitutional-ai safety-posttraining principled-alignment