
26.06.08 ~ 26.06.12
AI 에이전트를 어떻게 평가할 수 있을까
요즘 개인적으로도, 팀에서도 AI 에이전트를 만들면서 하는 가장 큰 고민 중 하나는 "어떻게 평가할 수 있을지?"이다. 이와 관련해서 이번 주에 엔트로픽의 블로그 글을 하나 읽게 되었다. 제목은 <Demystifying evals for AI agents>
Demystifying evals for AI agents
Demystifying evals for AI agents
www.anthropic.com
이 글에서 말하는 핵심은 AI 에이전트 평가는 단순히 정답 채점이 아니라, 에이전트가 실제 환경에서 여러 턴 동안 도구를 쓰고 상태를 바꾸며 목표를 달성하는지를 측정하는 체계 라는 점이다. 일반적인 LLM 평가와 다르게, 에이전트 평가는 여러 턴 동안 도구를 호출하고, 환경을 바꾸고, 중간 결과에 따라 행동을 바꾼다. 그렇기 때문에 마지막 답변만 보는 것은 부족하고 전체 실행 과정과 최종 환경 상태를 같이 보아야 한다.
에이전트는 비결정적인 특성을 가지고 있기 때문에 통과하는 지표 측정도 pass@k, pass^k 나누어서 하는 점이 인상적이었다.
- pass@k : k번 시도 중 한 번이라도 성공할 확률. 여러 시도 중 하나만 성공하면 되는 코딩 문제나 탐색형 문제에 유용.
- pass^k : k번 모두 성공할 확률. 고객을 마주하는 에이전트처럼 매번 안정적으로 성공해야 하는 제품에서 중요.
그리고 Capacity eval과 Regression eval을 목적에 맞게 사용해야 한다는 점도 기억에 남는다.
- Capacity eval : "이 에이전트가 무엇을 할 수 있는가?"를 보는 평가. 처음에는 pass rate가 낮아야 좋다.
- Regression eval : "예전에 잘하던 걸 여전히 잘하는가?"를 보는 평가. 거의 100%에 가까운 pass rate를 기대한다.
단순히 프롬프트를 잘 작성하는 관점에서만 나는 고민을 했는데, 평가도 하나의 시스템 요소로 넣고 고민을 해야겠다는 생각이 든다.
'Weekly Insight' 카테고리의 다른 글
| 위클리 인사이트 By 오웬 (Y26W23) (0) | 2026.06.05 |
|---|---|
| 위클리 인사이트 By 오웬 (Y26W22) (0) | 2026.05.29 |
| 위클리 인사이트 By 오웬 (Y26W21) (0) | 2026.05.25 |