
멀티 에이전트 강화학습(MARL) 분야는 오랫동안 인간 연구자의 직관과 시행착오에 의존해 발전해 왔습니다. 특히 Counterfactual Regret Minimization(CFR)이나 Policy Space Response Oracles(PSRO)와 같은 핵심 알고리즘은 수많은 조합의 업데이트 규칙을 수동으로 실험하며 개선해 왔습니다.
이번에 Google DeepMind 연구팀은 이러한 접근 방식을 근본적으로 바꾸는 시도를 공개했습니다. 바로 AlphaEvolve라는 진화 기반 코딩 에이전트를 통해, 알고리즘의 소스 코드를 ‘유전자’처럼 다루며 완전히 새로운 로직을 자동으로 발견한 것입니다.
이 글에서는 AlphaEvolve의 개념과 동작 방식, 그리고 이를 통해 탄생한 VAD-CFR과 SHOR-PSRO의 핵심 아이디어와 기술적 의미를 정리합니다.
1. AlphaEvolve: 소스 코드를 진화시키는 LLM 기반 프레임워크
1) 기존 AutoML과의 차이
기존 AutoML은 주로 하이퍼파라미터(학습률, 감쇠계수 등) 같은 숫자 값을 최적화하는 데 초점을 맞췄습니다.
반면 AlphaEvolve는 한 단계 더 나아가 **‘Semantic Evolution(의미적 진화)’**을 수행합니다. 단순히 숫자를 조정하는 것이 아니라, LLM을 활용해:
- 알고리즘의 제어 흐름을 재작성하고
- 새로운 조건문과 연산을 추가하며
- 상징적 로직 자체를 바꿉니다.
이 과정에서 Gemini 2.5 Pro가 지능형 유전 연산자처럼 활용됩니다.
2) AlphaEvolve의 진화 루프 구조
AlphaEvolve는 다음과 같은 반복 구조를 따릅니다.
- 초기화
표준 CFR과 같은 베이스라인 구현을 초기 개체군으로 설정합니다. - LLM 기반 변이
성능이 높은 부모 알고리즘을 선택하고, LLM에게 exploitability를 줄이도록 코드를 수정하도록 지시합니다. - 자동 평가
Kuhn Poker와 같은 프록시 게임에서 실행하여 음의 exploitability 점수를 계산합니다. - 선택
유효하고 성능이 우수한 알고리즘을 개체군에 추가합니다.
이 과정을 통해 인간이 쉽게 떠올리기 어려운 비직관적 최적화 구조가 자연스럽게 등장합니다.
2. VAD-CFR: 변동성을 이해하는 후회 최소화 알고리즘
AlphaEvolve가 발견한 첫 번째 주요 결과는 Volatility-Adaptive Discounted (VAD-) CFR입니다.
1) 배경: Extensive-Form Game과 Regret Minimization
불완전 정보 게임(Extensive-Form Game, EFG)에서 에이전트는 다양한 히스토리를 거치며 후회를 최소화해야 합니다. 기존 CFR 변형들은 주로 고정된 discounting 전략을 사용합니다.
하지만 VAD-CFR은 학습 과정의 ‘흔들림’을 고려합니다.
2) VAD-CFR의 핵심 메커니즘
(1) 변동성 적응형 Discounting
- 즉시 후회의 크기를 기반으로 EWMA(Exponential Weighted Moving Average)를 계산합니다.
- 학습 변동성이 높으면 discount를 크게 적용해 불안정한 과거를 빠르게 잊습니다.
- 변동성이 낮아지면 과거 정보를 더 많이 유지해 정밀 조정에 집중합니다.
이는 학습 안정성을 상황에 맞게 조절하는 비직관적 전략입니다.
(2) 비대칭 즉시 부스팅 (Asymmetric Instantaneous Boosting)
- 양의 즉시 후회에 1.1 배 가중치를 부여합니다.
- 이는 유리한 전략 변화를 더 빠르게 반영하도록 만듭니다.
기존 방식은 누적 후회를 기다려야 했지만, VAD-CFR은 좋은 방향을 즉시 강화합니다.
(3) Hard Warm-Start와 후회 크기 기반 가중 평균
- 정책 평균화를 500번째 iteration 이후로 지연합니다.
- 초기 노이즈를 제거하기 위한 전략입니다.
- 이후에는 즉시 후회의 크기에 비례해 정책을 가중 평균합니다.
흥미로운 점은, LLM이 전체 1000 iteration 평가 구조를 알지 못한 상태에서 500이라는 임계값을 도출했다는 것입니다.
3) 성능 결과
VAD-CFR은 11개 게임 중 10개에서 최신 기법과 동등하거나 더 나은 성능을 보였습니다.
4-player Kuhn Poker를 제외한 대부분의 환경에서 안정적인 수렴을 달성했습니다.
3. SHOR-PSRO: 메타 전략 수준의 하이브리드 진화
두 번째 성과는 Smoothed Hybrid Optimistic Regret (SHOR-) PSRO입니다.
PSRO는 정책 집합을 확장하며 상위 추상화인 Meta-Game에서 학습하는 구조입니다. SHOR-PSRO는 이 중 **Meta-Strategy Solver(MSS)**를 진화시켰습니다.
1) 하이브리드 블렌딩 메커니즘
SHOR-PSRO는 다음과 같은 혼합 전략을 사용합니다.
σ_hybrid = (1 - λ) · σ_ORM + λ · σ_Softmax
- σ_ORM: Optimistic Regret Matching 기반의 안정성 제공
- σ_Softmax: 고보상 전략에 집중하는 Boltzmann 분포 기반 전략
이 선형 결합은 탐색성과 안정성을 동시에 확보합니다.
2) 동적 Annealing 스케줄
- λ 값을 0.3에서 0.05까지 점진적으로 감소시킵니다.
- 초기에는 탐색을 강화하고,
- 점차 균형 수렴에 집중합니다.
이는 자동으로 exploration에서 exploitation으로 전환하는 구조입니다.
3) 학습-평가 비대칭 구조
AlphaEvolve는 추가로 다음과 같은 비대칭 전략을 발견했습니다.
- 학습 단계: annealing 스케줄을 사용해 안정성 확보
- 평가 단계: 고정된 낮은 λ(0.01)를 사용해 반응적 exploitability 측정
이 비대칭 구조는 수렴 속도와 성능을 동시에 개선했습니다.
4. 기술적 의미와 시사점
1) 인간 직관의 한계를 넘는 알고리즘 설계
이번 연구는 단순히 성능이 개선된 알고리즘을 제시한 것이 아닙니다.
핵심은 다음과 같습니다.
- 소스 코드를 유전자로 취급
- LLM을 진화 연산자로 활용
- 하이퍼파라미터가 아닌 로직 자체를 탐색
이는 알고리즘 설계 자동화의 새로운 패러다임입니다.
2) MARL 연구 방식의 변화
VAD-CFR과 SHOR-PSRO는 다음을 보여줍니다.
- 변동성 기반 적응형 학습 전략의 효과
- 메타 전략 수준에서의 하이브리드 설계의 가능성
- 탐색-수렴 전환의 자동화
이제 연구자는 모든 업데이트 규칙을 직접 설계하는 대신,
진화 시스템이 생성한 후보를 분석하고 이해하는 역할로 이동할 가능성이 큽니다.
알고리즘은 이제 ‘설계’가 아니라 ‘진화’된다
Google DeepMind의 AlphaEvolve는 멀티 에이전트 강화학습 분야에서 중요한 전환점을 제시했습니다.
- VAD-CFR은 학습 변동성에 적응하는 후회 최소화 전략을 도입했고,
- SHOR-PSRO는 메타 전략 수준에서 하이브리드 최적화를 구현했습니다.
- 두 알고리즘 모두 인간이 직관적으로 설계하기 어려운 구조를 자동으로 발견했습니다.
이 연구는 단순한 성능 개선 사례를 넘어,
“알고리즘을 사람이 직접 설계해야 하는가?”라는 질문을 던집니다.
앞으로는 LLM 기반 진화 시스템이 새로운 알고리즘을 창조하고,
연구자는 그 의미와 원리를 해석하는 방향으로 역할이 바뀔 가능성이 큽니다.
멀티 에이전트 학습뿐 아니라, 다양한 최적화·의사결정 분야에서도
이와 같은 의미적 진화 접근 방식이 확산될 것으로 기대됩니다.
Google DeepMind Researchers Apply Semantic Evolution to Create Non Intuitive VAD-CFR and SHOR-PSRO Variants for Superior Algorit
Google Researchers Apply Semantic Evolution to Create Non Intuitive VAD-CFR and SHOR-PSRO Variants for Superior Algorithmic Convergence
www.marktechpost.com

'인공지능' 카테고리의 다른 글
| 에이전트 AI 코딩, 프로그래밍 패러다임을 바꾸다 (0) | 2026.02.26 |
|---|---|
| Mercury 2: 확산 기반 병렬 정제로 1,009토큰/초를 구현한 초고속 추론 LLM (0) | 2026.02.26 |
| /init으로 생성한 AGENTS.md가 오히려 비용을 20% 늘리는 이유와 올바른 컨텍스트 설계 전략 (0) | 2026.02.26 |
| Claude Code Remote Control 기능 완전 정리: 로컬 세션을 모든 기기에서 이어서 사용하는 방법 (0) | 2026.02.26 |
| Qwen 3.5 Medium 시리즈 공개: 35B 모델이 235B 플래그십을 넘어선 이유 (0) | 2026.02.25 |