최근 인공지능 분야에서는 LLM(대규모 언어 모델, Large Language Model) 평가를 넘어, AI Agents의 평가 방법에 대한 논의가 활발히 이루어지고 있습니다. AI Agents는 단순히 텍스트를 생성하는 LLM과는 달리, 다양한 액션 시퀀스를 실행해야 하며, 이해–계획–실행이라는 복잡한 단계를 포함합니다. 이러한 특성 때문에 AI Agents의 평가 방식은 LLM에 비해 더욱 까다롭습니다. 이 글에서는 AI Agents 평가를 위한 세 가지 주요 접근법을 살펴봅니다.
1. 결과물 평가: MLE-bench
AI Agents 평가의 가장 기본적인 접근법은 에이전트가 생성한 결과물을 평가하는 것입니다. 이 접근법은 MLE-bench(Machine Learning Engineering Benchmarks)라는 연구에서 잘 정리되었습니다.
MLE-bench는 머신러닝 엔지니어링(MLE) 작업을 자동화하는 에이전트를 평가하기 위해 설계된 오프라인 Kaggle 대회 환경입니다.
평가 방식:
- 에이전트에게 Kaggle의 75개 대회 중 하나의 작업을 할당합니다.
- 에이전트는 작업을 수행하고 제출물(CSV 파일)을 생성합니다.
- 이 제출물은 대회별로 고유한 채점 코드를 통해 평가되며, 점수에 따라 금, 은, 동 메달이 수여됩니다.
고려 사항:
- MLE-bench는 결과물(작동 가능한 모델)을 중점적으로 평가합니다.
- 플래그를 방지하기 위해 Dolod 도구를 활용하여 코드 중복 및 규칙 위반 여부를 확인합니다.
이 접근법은 결과 중심적이며, 작업의 최종적인 성과를 빠르게 측정할 수 있는 장점이 있습니다. 그러나 에이전트의 사고 과정이나 계획의 품질은 직접적으로 평가하지 못한다는 한계가 있습니다.
2. 워크플로우 분석: WorFBench
두 번째 접근법은 결과물보다 에이전트의 워크플로우 생성에 초점을 맞춥니다. WorFBench라는 연구에서는 에이전트가 작업을 해결하기 위해 생성한 계획과 실행 단계를 평가합니다.
평가 방식:
- 에이전트에게 작업과 사용할 도구 목록을 제공합니다.
- 에이전트는 실행 단계(Node Chain)와 종속성 그래프(Directed Acyclic Graph, DAG)를 생성합니다.
- 생성된 그래프는 텍스트 형식으로 나타내어 간단히 표현할 수 있습니다: (START, 1) (1, 2) (2, END).
- WorFBench는 에이전트가 생성한 그래프와 기준 그래프를 비교하여 품질을 평가합니다.
이 방식은 AI Agents가 어떻게 생각하고 계획을 세우는지를 평가할 수 있어, 실행 과정의 투명성과 논리성을 확인할 수 있습니다. 그러나 최종 결과물의 품질을 간접적으로 평가할 뿐이라는 점에서 한계가 있습니다.
3. 에이전트를 평가하는 에이전트: Agent-as-a-Judge
세 번째 접근법은 에이전트가 다른 에이전트를 평가하도록 하는 방식입니다. 이는 Meta가 제안한 연구로, 기존의 LLM-as-a-Judge와 차별화됩니다.
에이전트 구성:
Agent-as-a-Judge는 단순한 텍스트 생성기가 아니라, 8개의 구성 요소로 이루어진 시스템입니다:
- Graph
- Locate
- Search
- Retrieve
- Read
- Ask
- Planning
- Memory
평가 방식:
- 초기 작업과 결과 요구사항이 주어집니다.
- 에이전트는 계획 구성 요소를 사용하여 작업을 계획하고, 단계별로 실행하며, 결과를 검증합니다.
- 요구사항 충족 여부를 증거로 삼아 평가를 수행합니다.
성과:
- Agent-as-a-Judge는 LLM-as-a-Judge보다 높은 평가 정확도를 보였습니다. 인간 평가자와의 일치율은 94%로, LLM(60%)보다 월등히 우수했습니다.
이 접근법은 에이전트의 평가 과정에 또 다른 에이전트를 도입함으로써 자율성과 신뢰성을 높입니다. 또한, 평가 과정 자체가 매우 정교하게 설계될 수 있다는 장점이 있습니다.
결론
AI Agents의 평가에는 결과물 평가, 워크플로우 분석, 에이전트를 평가하는 에이전트라는 세 가지 주요 접근법이 존재합니다. 각 접근법은 다음과 같은 차별성을 지닙니다:
- 결과물 평가는 최종 성과를 빠르게 측정하는 데 적합합니다.
- 워크플로우 분석은 에이전트의 사고 및 계획 과정을 평가할 수 있습니다.
- Agent-as-a-Judge는 에이전트 간 평가를 통해 신뢰도를 높이고, 평가 체계 자체를 강화합니다.
AI Agents 평가 방식은 에이전트의 역할과 응용 분야에 따라 달라질 수 있습니다. 앞으로 더 많은 연구와 논의가 이루어져, AI Agents의 효율적이고 공정한 평가 체계가 마련되길 기대합니다.
'인공지능' 카테고리의 다른 글
ARC-AGI: 인간과 인공지능의 지능을 평가하는 새로운 척도 (0) | 2024.12.30 |
---|---|
세계 최대 오픈 소스 LLM, 딥시크-V3 출시! GPT-4o를 넘어서는 혁신? (0) | 2024.12.30 |
AI 에이전트의 모든 것: 가상 비서에서 지능형 의사 결정자로의 진화 (0) | 2024.12.27 |
Google Cloud가 제안하는 2025년, AI가 비즈니스를 바꾸는 5가지 트렌드 (0) | 2024.12.27 |
AI와 함께하는 단위 테스트 작성: GitHub Copilot으로 생산성 높이기 (0) | 2024.12.26 |