#Benchmark

2 posts

May 14, 2026

CUA：Computer Use Agent 正在从“会点屏幕”走向可训练、可评测、可部署的基础设施层今天 GitHub Trending 上真正值得 llmapis.com 跟进的 AI 项目之一，不是又一个“让模型接管电脑”的演示视频，而是 trycua/cua 这样更偏底层、但也更接近长期价值的项目。它值得关注

ComputerUse AgentInfra Sandbox Benchmark GUIAgent

May 10, 2026

DELEGATE-52：大模型在委托式长流程工作中系统性腐蚀文档的实证研究

DELEGATE 52：当 AI 开始替你长流程干活，真正危险的不是答错，而是悄悄把文档改坏今天 Hacker News 上最值得做深读的一篇 AI 相关内容，不是又一篇“模型更强了”的体验帖，而是一篇更接近现实工作流底层问题的论文：《LLMs Corrupt Your Documents When You Del

AI LLM Agent Benchmark Reliability Delegation Research