PawBench – 阿里通义推出的通用智能体评测基准

互联网资讯 来源:AI工具集 2026-06-07 01:50:38

PawBench是什么

PawBench 是通义实验室推出的通用智能体评测基准,面向个人助理与 Agent 场景,将底座模型与运行框架(Harness)纳入同一评测体系。PawBench v1.0 构建了 150 道真实任务、4050 个测试单元的评测集,通过 9 个模型 × 3 个 Harness 的交叉评测,能评估模型+Harness的最佳组合,帮 Harness 开发者精准定位问题并验证优化。

PawBench的主要功能

  • 联合评测:将底座模型与运行框架(Harness)纳入同一评测体系,评估 LLM × Harness 的联合效果。
  • 真实任务集:构建 150 道真实任务、4050 个测试单元,从 6 个高质量 Agent 评测集抽取并聚合。
  • 五维标签体系:每道题按应用场景、原子能力、复杂度(L1-L3)、输入模态、运行环境进行结构化标注。
  • 混合评分机制:结合自动评分器(规则断言)与 LLM-as-judge(语义质量评估),分数范围 0 到 1。
  • 多切片榜单:支持 Overall(150 题)、Text(124 题)、Multimodal(26 题)三个维度自由切换查看。
  • 全量轨迹保留:所有任务在 Docker 沙箱中运行,执行轨迹、grader 产物和环境快照完整保存。
  • 深度诊断分析:支持按模型规模、模态、任务类型、技能领域等维度切片,定位 Harness 具体行为缺陷。

PawBench的技术原理

  • 交叉评测矩阵:构建 9 个模型 × 3 个 Harness × 150 道任务的三维评测空间,通过控制变量法隔离模型能力与框架能力的贡献。
  • 五维标签体系:从应用场景、原子能力、复杂度、输入模态、运行环境五个维度对任务进行结构化标注,支持多维度切片下钻分析。
  • 混合评分机制:结合确定性规则断言(文件存在性、字段匹配、exit code)与 LLM-as-judge 语义评估,平衡客观性与灵活性。
  • Docker 沙箱隔离:每个测试单元在独立容器中运行,捕获执行轨迹、workspace 产物及环境快照,确保结果可复现与问题可追溯。
  • 产物级硬校验:通过检查文件是否落盘、diff 是否生成、测试是否通过等实质性指标,避免模型”虚假完工”。

如何使用PawBench

  • 克隆源码:访问 GitHub 仓库 agentscope-ai/PawBench 克隆评测框架。
  • 配置环境:写入待测模型的 API 密钥,并配置 Harness 运行环境。
  • 选择任务:从 150 道任务中选择特定切片(Text/Multimodal)或全量任务启动。
  • 运行评测:在 Docker 沙箱中执行任务,系统自动保留执行轨迹与产物。
  • 获取评分:通过自动评分器与 LLM-as-judge 计算混合权重最终分数。
  • 提交榜单:访问 agentscope-ai.github.io/PawBench 提交结果并查看排名。

PawBench的核心优势

  • 诊断 Harness :通过 4050 个测试单元的切片分析,精准定位框架在 Skill 加载、路径感知、工具配置等方面的行为缺陷。
  • 真实复现性:基于 Docker 沙箱运行,执行轨迹与环境快照完整保留,失败案例可逐层回溯复盘。
  • 零门槛开箱评测:还原开发者首次 clone 后的默认体验,不追求”配齐所有 API Key 的理论上限”。
  • 持续回归验证:Harness 每次修复后可重新切片跑分,验证优化是否真实对应到问题维度。
  • Harness 分差量化:首次证明 Harness 差距(最高 6.4 分)堪比一次重大模型版本升级,为小模型反超提供路径。

PawBench的项目地址

  • 项目官网:https://agentscope-ai.github.io/PawBench/

  • GitHub仓库:https://github.com/agentscope-ai/PawBench

PawBench的同类竞品对比

对比维度PawBenchSWE-benchAgentBench
核心定位评测”模型 + Harness”联合效果评测模型解决真实代码问题的能力评测模型作为 Agent 在多环境中的通用能力
Harness/框架评估核心能力,明确隔离框架贡献❌ 否,仅评估模型本身❌ 否,仅评估模型本身
任务来源6 个 Agent 评测集聚合(150 道)真实 GitHub Issue/PR(2000+)多环境模拟任务(1000+)
典型任务办公协同、软件工程、自动化脚本、Web 搜索、Skill 调用代码 Bug 修复、功能实现、测试通过OS 操作、数据库查询、网页浏览、卡牌游戏、家务决策
评分机制自动规则断言 + LLM-as-judge 混合单元测试通过/失败(二元)环境规则评分(准确率/成功率)
环境隔离Docker 沙箱 + 工作区产物校验代码沙箱 + Git 仓库快照多环境容器(OS/DB/Web 等)
任务标签体系五维标签(场景/能力/复杂度/模态/环境)按编程语言/仓库切片按环境类型切片
榜单维度Overall / Text / Multimodal 三切片按 Verified/Multimodal/Full 分榜按环境(OS/DB/KG/DCG 等)分榜
失败诊断能力保留执行轨迹、产物快照、环境状态,支持逐层回溯保留代码补丁与测试日志保留环境交互日志
零配置评测还原首次 clone 后的默认体验需配置代码仓库环境需配置各环境容器
最佳适用Harness 开发者优化、模型+框架选型代码模型能力评估、编程助手研发通用 Agent 能力评估、多模态决策研究

PawBench的应用场景

  • Harness 开发者优化:通过切片分析定位框架在 Skill 加载、路径感知、Web 工具默认可用性等方面的具体缺陷。
  • 模型选型参考:帮助用户根据纯文本 / 多模态 / Skill / Web 搜索等任务类型选择最佳模型 + Harness 组合。
  • 基准回归测试:Harness 迭代修复后重新跑分,验证优化是否真实解决对应切片问题。
  • 学术研究:为通用智能体研究提供可复现的交叉评测基准,推动模型与框架协同进化。

关注公众号:拾黑(shiheibook)了解更多

友情链接:

下软件就上简单下载站:https://www.jdsec.com/
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接