
Google DeepMind와 UIUC 연구진이 발표한 Evo-Memory와 ReMem 프레임워크는 LLM 에이전트가 단순히 정보를 저장하는 수준을 넘어, 실제로 경험을 재사용하고 진화할 수 있는지를 본격적으로 시험하는 연구입니다.
이번 글에서는 Evo-Memory가 왜 중요한지, 기존 메모리 방식과 무엇이 다른지, 그리고 ReMem이 어떻게 LLM 에이전트의 추론과 행동을 한 단계 끌어올렸는지 상세히 정리합니다.
Evo-Memory가 등장한 이유
LLM 에이전트는 점점 더 많은 정보를 기억하고 저장하고 있습니다. 그러나 문제는 명확합니다.
이렇게 저장한 경험을 실제로 활용해 더 나은 의사결정을 할 수 있는가, 아니면 그저 과거 문맥을 불러오기만 하는가입니다.
대부분의 에이전트가 사용하는 방식은 conversational recall, 즉 단순한 대화 기록이나 도구 호출 로그를 그대로 문맥창(context window)으로 다시 불러오는 방식입니다. 이 방식은 과거 사실을 되짚는 데는 유용하지만, 새로운 문제를 해결하기 위한 전략적 발전을 만들어내지 못한다는 한계가 있습니다.
연구진은 이 문제를 해결하기 위해 LLM이 테스트타임(test-time)에서 스스로 진화할 수 있는지를 평가하는 새로운 기준이 필요하다고 주장하며, 이를 위해 Evo-Memory를 제안했습니다.
Evo-Memory란 무엇인가
Evo-Memory는 연속적(task stream)으로 쏟아지는 문제들을 통해, LLM이 경험을 축적하고 재사용할 수 있는지를 평가하는 스트리밍 벤치마크입니다.
여기서는 각 상호작용이 단순한 입력·출력을 넘어서, 성공 여부와 사용된 전략까지 하나의 경험으로 기록됩니다.
핵심 차이는 다음과 같습니다.
기존: Conversational Recall
- 단순히 대화를 저장
- 사실·입력·과거 내용을 다시 불러오는 용도
- 전략 발전은 없음
Evo-Memory: Experience Reuse
- 각 상호작용을 하나의 “경험”으로 정의
- 성공 여부, 전략, 피드백까지 포함
- 새로운 문제에서 이 경험을 검색하고 재사용
- 시간이 지날수록 메모리를 업데이트하고 최적화
연구진은 메모리 기반 에이전트를 **(F, U, R, C)**라는 네 가지 구성요소로 공식화했습니다.
- F(Function): 기본 LLM
- R(Retrieval): 경험 검색
- C(Context Constructor): 현재 입력과 검색한 경험을 하나의 프롬프트로 구성
- U(Update): 새로운 경험을 메모리에 기록하고 최적화
이 구조는 기존의 정적인 메모리와 달리, 지속적으로 변화하는 동적 메모리 구조를 실험할 수 있게 만듭니다.
Evo-Memory 벤치마크의 구성
Evo-Memory는 기존의 문제집 형태 데이터셋을 순차적 문제 스트림으로 재구성합니다.
초반 문제의 해결 전략이 후반 문제에 도움이 되도록 설계되어 있어, 경험 재사용 능력을 직접 시험합니다.
포함된 데이터셋
- AIME 24, AIME 25 (수학)
- GPQA Diamond (지식 기반 QA)
- MMLU-Pro (경제, 공학, 철학 등)
- ToolBench (도구 활용)
- AgentBoard의 다양한 환경
- AlfWorld
- BabyAI
- ScienceWorld
- Jericho
- PDDL Planning
평가 기준은 네 가지
- 정확도(Exact Match) 또는 Answer Accuracy
- Embodied 환경 성능 (성공률, 진행도)
- Step Efficiency (적은 단계로 해결하는가)
- Sequence Robustness (문제 순서가 달라져도 안정적인가)
이 네 가지 기준은 LLM 에이전트가 단순 회상 수준이 아니라 점진적 적응 능력을 갖췄는지 평가합니다.
ExpRAG: 가장 단순한 경험 재사용 베이스라인
연구진은 기준선을 세우기 위해 ExpRAG라는 매우 단순한 경험 재사용 방식도 제안했습니다.
각 문제는 다음 구조의 경험으로 저장됩니다.
- 입력(x)
- 모델 출력(y_hat)
- 피드백(f)
새로운 문제를 풀 때는 다음과 같이 동작합니다.
- 기존 경험 중 유사한 경험을 검색
- 검색된 경험들을 프롬프트에 함께 넣어 in-context example로 활용
- 문제 해결 후 새로운 경험을 다시 저장
이 방법은 구조가 매우 단순하며, 모델 행동 루프 자체를 변경하지 않습니다.
그럼에도 테스트 결과는 놀라웠습니다.
- 단일 턴 벤치마크에서 평균 0.60 수준의 정확도
- 여러 복잡한 메모리 아키텍처보다 성능이 더 높게 나오는 경우도 존재
이는 경험 재사용만으로도 성능 향상이 가능함을 보여주는 근거가 됩니다.
ReMem: Think, Act, Refine 기반의 진화형 에이전트
연구의 핵심 기여는 ReMem이라는 새로운 에이전트 프레임워크입니다.
ReMem은 단순히 경험을 불러오는 것이 아니라, reasoning 과정에서 메모리를 능동적으로 수정하고 재구성합니다.
ReMem은 세 가지 단계로 이루어진 루프를 가집니다.
1. Think
- 문제를 다양한 reasoning step으로 분해
- 중간 사고(trace)를 생성
2. Act
- 환경에서 행동 수행
- 또는 최종 답변 출력
3. Refine
- 메모리 항목을 검색, 수정, 재구성
- 비효율적인 경험은 정리하고 더 유용한 경험을 강화
이 과정은 ReAct 스타일 에이전트와 달리, 메모리를 수동적 저장소가 아닌 조작 가능한 객체로 다룹니다.
즉, ReMem 에이전트는 문제를 해결하면서 스스로 메모리를 가공하고 최적화합니다.
실험 결과: ReMem은 실제로 더 강했다
연구진은 Gemini 2.5 Flash와 Claude 3.7 Sonnet 모델을 대상으로 동일한 프로토콜에서 실험했습니다.
단일 턴 reasoning 성능
- ReMem (Gemini 2.5 Flash): 평균 정확도 0.65
- ExpRAG: 평균 0.60
- 기존 히스토리 기반 방식보다 안정적 향상
ToolBench
- ReMem: API 성공률 0.85, 정확도 0.71
- ExpRAG도 여러 복잡한 방식보다 더 뛰어난 성능
멀티턴 환경에서 성능 향상은 더 극적
(Claude 3.7 Sonnet 기준)
- AlfWorld: 성공률 0.92, 진행도 0.96
- BabyAI: 성공률 0.73
- PDDL: 성공률 0.83
- ScienceWorld: 성공률 0.62
- 평균 성공률 0.78, 진행도 0.91
Gemini 기반에서도 모든 환경에서 ReMem이 기존 대비 향상된 성능을 보였습니다.
Step Efficiency
ReMem은 문제를 풀기 위한 평균 단계 수를 의미 있게 줄였습니다.
예: AlfWorld
- 기존: 22.6 step
- ReMem: 11.5 step
즉, 경험 재사용은 정확도뿐 아니라 효율성도 개선합니다.
성능 향상의 비밀: Task Similarity
연구진은 경험 기반 메모리가 특히 구조가 유사한 문제들에서 강력한 효과를 낸다는 사실을 확인했습니다.
유사도가 높을수록 ReMem의 성능 향상 폭이 커졌고, 상관계수는 다음과 같습니다.
- Gemini 2.5 Flash: 0.72
- Claude 3.7 Sonnet: 0.56
즉, ReMem은 규칙성이 있는 문제 도메인에서 가장 큰 성과를 낸다는 결론을 얻었습니다.
Evo-Memory와 ReMem 연구는 단순히 성능을 높이는 기법을 넘어, LLM 에이전트의 미래 방향을 제시합니다.
이번 연구가 던지는 핵심 메시지는 명확합니다.
1. LLM은 테스트타임에서도 학습할 수 있다
경험 재사용 기반 메모리 구조는 LLM이 문제를 해결하는 방식 자체를 진화시킬 수 있음을 보여줍니다.
2. 단순한 방식도 충분히 효과적이다
ExpRAG처럼 매우 단순한 접근도 의미 있는 성능 향상을 제공합니다.
3. ReMem은 LLM 에이전트가 ‘생각 → 행동 → 메모리 진화’의 루프를 가지게 만든다
이는 기존 ReAct보다 더 적극적인 전략적 사고를 가능하게 합니다.
4. 정적인 프롬프트 중심 시대에서, 동적 메모리 중심의 에이전트 시대로 이동 중이다
Evo-Memory는 이를 평가할 수 있는 최초의 종합적인 기준을 제시합니다.
Evo-Memory와 ReMem은 LLM 에이전트가 단순한 기억을 넘어 경험을 기반으로 성장할 수 있는지를 탐구하는 중요한 연구입니다.
경험을 저장하고, 검색하고, 심지어 재구성하면서 성능과 효율을 높이는 방법은 앞으로의 에이전트 아키텍처 설계에 강력한 기준이 될 것으로 보입니다.
이번 연구는 LLM이 단순히 “똑똑한 모델”이 아니라, 사용 중에도 진화할 수 있는 지능형 에이전트가 될 수 있음을 보여주는 중요한 이정표입니다.
Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory
Statefulness is essential for large language model (LLM) agents to perform long-term planning and problem-solving. This makes memory a critical component, yet its management and evolution remain largely underexplored. Existing evaluations mostly focus on s
arxiv.org

'인공지능' 카테고리의 다른 글
| Claude 4.5 Opus ‘소울 문서’ 논란 정리: AI 내부 가치 구조가 드러난 첫 사례 (0) | 2025.12.05 |
|---|---|
| AWS DevOps Agent 프리뷰 공개: 장애 대응을 자동화하는 새로운 DevOps 동반자 (0) | 2025.12.04 |
| Multi-Agent Collaboration via Evolving Orchestration 논문 리뷰 - LLM 멀티 에이전트 협업 방식 (0) | 2025.12.04 |
| 오픈소스 LLM - Mistral 3 모델 제품군 새소식 (0) | 2025.12.04 |
| AWS Nova Forge로 쉽고 빠르게 만드는 기업 맞춤형 AI 모델 (0) | 2025.12.04 |