即使已经有十几家产品了,但仔细想想 sandbox 这个赛道,还是有的做,毕竟不同的任务负载对Agent Runtime要求差异蛮大的:
1. All-in-One:集成多类工具的一站式运行环境镜像,能满足 AI Agent 多场景协同任务的高效执行需求。
2. Code:预装主流编译器与代码编辑器的专用镜像,提供安全隔离的代码编译、运行及调试环境。
3. Browser:内置无图形界面的浏览器引擎与操控 API 的镜像,适用于网页自动化测试、数据爬取等浏览器相关任务。
4. Computer:标准 Linux 桌面/终端,提供完整的 Linux 操作系统环境,支持标准 Shell 命令与桌面交互操作。
实验:实验性沙箱环境,用于集成与测试前沿或社区驱动的 Agent 框架与运行时(如 OpenCode、OpenClaw 等),支持快速验证新架构、新交互模式与新能力编排机制,可能存在功能变动或不稳定特性。
5. R2E 强化学习:R2E 强化学习环境子集,提供 R2E (Request-to-Execution) 核心任务环境,用于轻量化评估 Agent 在特定场景下的执行与反馈能力。
6. WebArena:Web 交互评测环境,基于 WebArena 基准构建的真实网站与任务场景,提供带有 GUI 的完整浏览器操作界面,用于评估 Agent 在复杂网页浏览、信息检索与多步 GUI 操作任务中的综合能力。
7. SWE-bench:专为评估 AI 模型修复软件工程代码缺陷的能力提供标准化测试环境。
8 . 下一家 sandbox 产品来定义