#ai-benchmarks | LLMAPIS

April 27, 2026

SWE-bench Verified 失效：公开编程评测的可信度危机与下一代评估范式转型

SWE bench Verified 失效：当前沿模型开始“记住答案”，公开评测就不再等于真实编程能力核心解读今天 Hacker News 上最值得 llmapis.com 跟进的 AI 评测话题，不是某个模型又刷新了多少分，而是 OpenAI 明确宣布： SWE bench Verified 已经不再适合衡量前沿

swe-bench evaluation-contamination autonomous-software-engineering ai-benchmarks coding-agents