本文介绍 Agent 评估方法,包括任务完成率、工具调用准确率、效率指标等核心评测维度。
评估 Agent 性能是迭代优化的基础。
| 指标 | 描述 | 计算方式 |
|---|---|---|
| 任务完成率 | 成功完成任务的比例 | 完成数/总任务数 |
| 工具调用准确率 | 正确调用工具的比例 | 正确调用/总调用 |
| 平均步数 | 完成任务的平均步骤 | 总步数/任务数 |
class AgentEvaluator:
def evaluate(self, agent, test_cases):
results = []
for case in test_cases:
result = {
"task": case.name,
"completed": agent.run(case.input) == case.expected,
"steps": agent.last_run_steps,
"tools_used": agent.last_tools
}
results.append(result)
return self.summarize(results)
评估框架验证通过