
AI 시스템이 점점 복잡해지는 지금, 단일 대형 LLM 하나로 모든 작업을 해결하려는 방식은 더 이상 효율적이지 않습니다. 비용은 계속 높아지고, 응답 속도는 느려지며, 모델이 스스로 강한 모델만 과도하게 호출해버리는 편향도 문제가 됩니다. NVIDIA가 발표한 ToolOrchestra의 중심 모델인 Orchestrator-8B는 이런 문제를 정면으로 해결하는 새로운 접근 방식을 제시합니다.
이 글에서는 Orchestrator-8B가 무엇이며 왜 중요한지, 어떤 방식으로 훈련되었는지, 그리고 실제 평가에서 어떤 성능을 보여주는지 기술적으로 정리합니다.
단일 LLM 중심 에이전트의 한계
지금까지 대부분의 AI 에이전트 아키텍처는 하나의 대형 모델에 모든 의사결정을 맡겨 왔습니다. 예를 들어 GPT-5와 같은 모델이 웹 검색, 코드 실행, 요약, 분석 등 다양한 툴을 호출할지를 스스로 판단하는 구조입니다.
문제는 이런 구조가 툴 선택 편향(self-enhancement bias) 을 만들며, 강한 모델일수록 스스로를 과도하게 호출하는 경향이 나타납니다.
연구에서 드러난 예시를 보면 다음과 같습니다.
- Qwen3-8B가 라우터로 사용될 때, 73%의 작업을 GPT-5로 위임
- GPT-5가 스스로 라우팅할 경우, 98%의 경우에 GPT-5 또는 GPT-5-mini 호출
- 비용과 속도 조건을 주어도 이를 무시하고 강한 모델을 과도하게 사용하는 경향
이런 구조는 성능은 어느 정도 확보할 수 있지만, 비용 증가와 지연 시간 문제를 피하기 어렵습니다.
Orchestrator-8B란 무엇인가
Orchestrator-8B는 Qwen3-8B를 기반으로 파인튜닝된 8B 파라미터의 경량 오케스트레이션 전용 LLM입니다.
이 모델은 거대한 모델이 아니라 툴과 모델을 ‘고르는 역할’에 최적화된 컨트롤러입니다.
Orchestrator-8B는 추론 시 다음과 같은 절차로 작동합니다.
- 사용자 요청과 선택적 선호(예: 낮은 지연 시간 우선)를 입력받고
- 내부 추론(Chain-of-Thought 스타일)을 생성한 뒤
- 사용 가능한 툴 목록 중 하나를 선택하여 JSON 형식으로 호출
이 과정은 도구 실행 결과를 다시 입력받아 최대 50턴까지 반복됩니다.
사용 가능한 툴은 크게 세 종류입니다.
- 기본 툴: Tavily 검색, Python 샌드박스, Faiss 검색
- 전문 LLM: Qwen2.5-Math-72B, Qwen2.5-Coder-32B 등
- 범용 LLM: GPT-5, GPT-5-mini, Llama3.3-70B 등
모든 툴은 통일된 스키마로 정의되어 있어, Orchestrator-8B가 이를 유연하게 선택할 수 있습니다.
왜 단순 프롬프트 기반 라우팅이 실패하는가
NVIDIA 연구팀은 “프롬프트만 잘 설계하면 모델이 스스로 툴을 잘 고를 것”이라는 기대가 틀렸음을 실험으로 보여줍니다.
대형 모델은 비용이나 지연 시간 같은 조건을 무시하고 성능이 좋은 모델을 과도하게 호출하는 편향을 보입니다.
이를 연구팀은 다음 두 가지 편향으로 설명합니다.
- self-enhancement bias: 모델이 스스로를 호출하는 경향
- other-enhancement bias: 일부 강한 모델만 반복적으로 호출
결과적으로 특정 모델에 종속되고, 시스템 전체 효율이 떨어집니다.
반면 Orchestrator-8B는 이 문제를 해결하기 위해 강화학습 기반의 명시적 라우팅 정책을 학습합니다.
강화학습 기반의 ToolOrchestra 훈련 방식
ToolOrchestra는 전체 멀티툴 사용 과정을 MDP(Markov Decision Process) 로 정의합니다.
여기서 상태는 지금까지의 대화 기록, 툴 호출 이력, 사용자 선호 등이 포함되고, 행동은 다음 메시지 또는 툴 호출입니다.
훈련 보상은 세 가지 요소를 합산해 계산됩니다.
- Outcome Reward (정확도 기반)
작업을 성공적으로 해결했는지에 따라 평가되며, 오픈엔드 작업의 경우 GPT-5가 판별자로 사용됩니다. - Efficiency Reward (비용·지연 기반)
각 툴의 토큰 사용량은 공인된 API 가격 기준으로 비용으로 환산되며, 지연 시간 또한 보상에 반영됩니다. - Preference Reward (사용자 선호 기반)
사용자가 “속도 우선”, “비용 최소화”, “특정 모델 사용 지양” 등과 같은 선호를 제공하면 이를 반영합니다.
이 세 가지는 사용자 선호 벡터에 따라 하나의 스칼라로 합쳐지고,
정책은 GRPO(Group Relative Policy Optimization) 로 업데이트됩니다.
또한 훈련 과정에서는 다음과 같은 안정화 기법도 사용됩니다.
- 잘못된 툴 포맷의 호출은 제거
- 보상 분산이 낮은 trajectory는 제외
ToolScale: 대규모 다중 툴 데이터셋 생성
ToolOrchestra를 대규모로 훈련하기 위해 NVIDIA는 ToolScale이라는 합성 데이터셋도 설계했습니다.
LLM이 데이터베이스 스키마부터 API 명세, 도메인 작업, 정답 툴 호출 순서까지 자체적으로 생성하도록 설계된 구조입니다.
이를 통해 다양한 멀티툴·멀티스텝 환경을 쉽게 시뮬레이션할 수 있습니다.
성능 평가: GPT-5보다 더 정확하면서도 더 저렴하고 더 빠르다
Orchestrator-8B는 세 가지 대표적인 벤치마크에서 평가되었습니다.
Humanity’s Last Exam
- Orchestrator-8B: 37.1%
- GPT-5 + 기본 툴: 35.1%
FRAMES(사실성·검색 중심)
- Orchestrator-8B: 76.3%
- GPT-5 + 기본 툴: 74.0%
τ² Bench(함수 호출·이중 제어 환경)
- Orchestrator-8B: 80.2%
- GPT-5 + 기본 툴: 77.7%
정확도뿐 아니라 비용과 속도도 큰 차이가 있습니다.
비용과 지연 시간
- Orchestrator-8B 평균 비용: 9.2 센트
- GPT-5 시스템 평균 비용: 30.2 센트
- Orchestrator-8B 평균 지연: 8.2분
- GPT-5 시스템 평균 지연: 19.8분
즉, 비용은 약 30% 수준, 속도는 2.5배 빠름 이라는 결과를 기록했습니다.
툴 사용 패턴을 분석하면 이유가 명확해집니다.
- GPT-5는 자신 또는 GPT-5-mini를 주로 호출
- Claude Opus 4.1도 GPT-5를 과도하게 호출
- Orchestrator-8B는
- 강한 모델
- 저렴한 모델
- 검색
- 로컬 검색
- 코드 인터프리터
등을 균형 있게 사용하며 전체 효율을 높임
새로운 모델에도 잘 적응하는 일반화 능력
훈련에 사용되지 않은 모델들(OpenMath Llama-2-70B, Claude Sonnet-4.1, Gemma-3-27B 등)로 구성된 환경에서도 Orchestrator-8B는
가장 높은 정확도·비용·지연 최적 조합을 유지했습니다.
또한 사용자 선호 기반 테스트에서도
GPT-5, Claude Opus-4.1보다 훨씬 더 일관성 있게 선호를 반영하는 것으로 나타났습니다.
왜 Orchestrator-8B가 중요한가
Orchestrator-8B는 단일 LLM 중심 구조에서 벗어나 도구와 모델을 명시적으로 조율하는 정책을 학습한 첫 현실적인 사례 중 하나입니다.
NVIDIA의 ToolOrchestra 접근 방식은 다음과 같은 이유로 의미가 큽니다.
- 단일 모델 중심 구조의 비용·지연·편향 문제를 해결
- 모델·툴 조합을 효율적으로 선택해 정확도 향상
- 사용자 선호를 반영한 맞춤형 오케스트레이션 가능
- 새로운 모델·툴 환경에서도 일반화 능력 유지
- 실제 벤치마크에서 GPT-5 기반 시스템보다 더 빠르고 저렴하며 정확함
AI 시스템이 단순히 “한 모델의 성능”으로 평가되던 시대는 끝나고,
이제는 여러 모델과 툴을 어떻게 조율하느냐가 핵심 경쟁력이 되고 있습니다.
Orchestrator-8B는 이러한 전환의 신호탄으로, 앞으로 기업들이 에이전트 시스템을 설계할 때 중요한 방향성을 제시합니다.
NVIDIA AI Releases Orchestrator-8B: A Reinforcement Learning Trained Controller for Efficient Tool and Model Selection
NVIDIA AI Releases Orchestrator-8B: A Reinforcement Learning Trained Controller for Efficient Tool and Model Selection
www.marktechpost.com

'인공지능' 카테고리의 다른 글
| MiniMax M2: 도구 사용과 인터리브드 사고로 완성되는 차세대 에이전트 AI (0) | 2025.11.30 |
|---|---|
| Chain-of-Visual-Thought(COVT): VLM의 시각 추론 한계를 넘어서는 새로운 접근 (0) | 2025.11.30 |
| STARFlow-V: 확산 모델을 넘어서는 새로운 비디오 생성 패러다임 - 정규화 흐름 기반으로 구현된 최초의 고품질 장기 비디오 생성 모델 (0) | 2025.11.29 |
| 알리바바 ‘AgentEvolver’: 스스로 학습 데이터를 만들어 진화하는 자율 에이전트 프레임워크 (0) | 2025.11.29 |
| DeepSeekMath-V2: AI가 올림피아드 수학 증명을 스스로 검증하는 시대의 시작 (0) | 2025.11.29 |