728x170

Google DeepMind와 UIUC 연구진이 발표한 Evo-Memory와 ReMem 프레임워크는 LLM 에이전트가 단순히 정보를 저장하는 수준을 넘어, 실제로 경험을 재사용하고 진화할 수 있는지를 본격적으로 시험하는 연구입니다.
이번 글에서는 Evo-Memory가 왜 중요한지, 기존 메모리 방식과 무엇이 다른지, 그리고 ReMem이 어떻게 LLM 에이전트의 추론과 행동을 한 단계 끌어올렸는지 상세히 정리합니다.

Evo-Memory가 등장한 이유

LLM 에이전트는 점점 더 많은 정보를 기억하고 저장하고 있습니다. 그러나 문제는 명확합니다.
이렇게 저장한 경험을 실제로 활용해 더 나은 의사결정을 할 수 있는가, 아니면 그저 과거 문맥을 불러오기만 하는가입니다.

대부분의 에이전트가 사용하는 방식은 conversational recall, 즉 단순한 대화 기록이나 도구 호출 로그를 그대로 문맥창(context window)으로 다시 불러오는 방식입니다. 이 방식은 과거 사실을 되짚는 데는 유용하지만, 새로운 문제를 해결하기 위한 전략적 발전을 만들어내지 못한다는 한계가 있습니다.

연구진은 이 문제를 해결하기 위해 LLM이 테스트타임(test-time)에서 스스로 진화할 수 있는지를 평가하는 새로운 기준이 필요하다고 주장하며, 이를 위해 Evo-Memory를 제안했습니다.

Evo-Memory란 무엇인가

Evo-Memory는 연속적(task stream)으로 쏟아지는 문제들을 통해, LLM이 경험을 축적하고 재사용할 수 있는지를 평가하는 스트리밍 벤치마크입니다.
여기서는 각 상호작용이 단순한 입력·출력을 넘어서, 성공 여부와 사용된 전략까지 하나의 경험으로 기록됩니다.

핵심 차이는 다음과 같습니다.

기존: Conversational Recall

단순히 대화를 저장
사실·입력·과거 내용을 다시 불러오는 용도
전략 발전은 없음

Evo-Memory: Experience Reuse

각 상호작용을 하나의 “경험”으로 정의
성공 여부, 전략, 피드백까지 포함
새로운 문제에서 이 경험을 검색하고 재사용
시간이 지날수록 메모리를 업데이트하고 최적화

연구진은 메모리 기반 에이전트를 **(F, U, R, C)**라는 네 가지 구성요소로 공식화했습니다.

F(Function): 기본 LLM
R(Retrieval): 경험 검색
C(Context Constructor): 현재 입력과 검색한 경험을 하나의 프롬프트로 구성
U(Update): 새로운 경험을 메모리에 기록하고 최적화

이 구조는 기존의 정적인 메모리와 달리, 지속적으로 변화하는 동적 메모리 구조를 실험할 수 있게 만듭니다.

Evo-Memory 벤치마크의 구성

Evo-Memory는 기존의 문제집 형태 데이터셋을 순차적 문제 스트림으로 재구성합니다.
초반 문제의 해결 전략이 후반 문제에 도움이 되도록 설계되어 있어, 경험 재사용 능력을 직접 시험합니다.

포함된 데이터셋

AIME 24, AIME 25 (수학)
GPQA Diamond (지식 기반 QA)
MMLU-Pro (경제, 공학, 철학 등)
ToolBench (도구 활용)
AgentBoard의 다양한 환경
- AlfWorld
- BabyAI
- ScienceWorld
- Jericho
- PDDL Planning

평가 기준은 네 가지

정확도(Exact Match) 또는 Answer Accuracy
Embodied 환경 성능 (성공률, 진행도)
Step Efficiency (적은 단계로 해결하는가)
Sequence Robustness (문제 순서가 달라져도 안정적인가)

이 네 가지 기준은 LLM 에이전트가 단순 회상 수준이 아니라 점진적 적응 능력을 갖췄는지 평가합니다.

ExpRAG: 가장 단순한 경험 재사용 베이스라인

연구진은 기준선을 세우기 위해 ExpRAG라는 매우 단순한 경험 재사용 방식도 제안했습니다.

각 문제는 다음 구조의 경험으로 저장됩니다.

입력(x)
모델 출력(y_hat)
피드백(f)

새로운 문제를 풀 때는 다음과 같이 동작합니다.

기존 경험 중 유사한 경험을 검색
검색된 경험들을 프롬프트에 함께 넣어 in-context example로 활용
문제 해결 후 새로운 경험을 다시 저장

이 방법은 구조가 매우 단순하며, 모델 행동 루프 자체를 변경하지 않습니다.
그럼에도 테스트 결과는 놀라웠습니다.

단일 턴 벤치마크에서 평균 0.60 수준의 정확도
여러 복잡한 메모리 아키텍처보다 성능이 더 높게 나오는 경우도 존재

이는 경험 재사용만으로도 성능 향상이 가능함을 보여주는 근거가 됩니다.

ReMem: Think, Act, Refine 기반의 진화형 에이전트

연구의 핵심 기여는 ReMem이라는 새로운 에이전트 프레임워크입니다.
ReMem은 단순히 경험을 불러오는 것이 아니라, reasoning 과정에서 메모리를 능동적으로 수정하고 재구성합니다.

ReMem은 세 가지 단계로 이루어진 루프를 가집니다.

1. Think

문제를 다양한 reasoning step으로 분해
중간 사고(trace)를 생성

2. Act

환경에서 행동 수행
또는 최종 답변 출력

3. Refine

메모리 항목을 검색, 수정, 재구성
비효율적인 경험은 정리하고 더 유용한 경험을 강화

이 과정은 ReAct 스타일 에이전트와 달리, 메모리를 수동적 저장소가 아닌 조작 가능한 객체로 다룹니다.
즉, ReMem 에이전트는 문제를 해결하면서 스스로 메모리를 가공하고 최적화합니다.

실험 결과: ReMem은 실제로 더 강했다

연구진은 Gemini 2.5 Flash와 Claude 3.7 Sonnet 모델을 대상으로 동일한 프로토콜에서 실험했습니다.

단일 턴 reasoning 성능

ReMem (Gemini 2.5 Flash): 평균 정확도 0.65
ExpRAG: 평균 0.60
기존 히스토리 기반 방식보다 안정적 향상

ToolBench

ReMem: API 성공률 0.85, 정확도 0.71
ExpRAG도 여러 복잡한 방식보다 더 뛰어난 성능

멀티턴 환경에서 성능 향상은 더 극적

(Claude 3.7 Sonnet 기준)

AlfWorld: 성공률 0.92, 진행도 0.96
BabyAI: 성공률 0.73
PDDL: 성공률 0.83
ScienceWorld: 성공률 0.62
평균 성공률 0.78, 진행도 0.91

Gemini 기반에서도 모든 환경에서 ReMem이 기존 대비 향상된 성능을 보였습니다.

Step Efficiency

ReMem은 문제를 풀기 위한 평균 단계 수를 의미 있게 줄였습니다.

예: AlfWorld

기존: 22.6 step
ReMem: 11.5 step

즉, 경험 재사용은 정확도뿐 아니라 효율성도 개선합니다.

성능 향상의 비밀: Task Similarity

연구진은 경험 기반 메모리가 특히 구조가 유사한 문제들에서 강력한 효과를 낸다는 사실을 확인했습니다.

유사도가 높을수록 ReMem의 성능 향상 폭이 커졌고, 상관계수는 다음과 같습니다.

Gemini 2.5 Flash: 0.72
Claude 3.7 Sonnet: 0.56

즉, ReMem은 규칙성이 있는 문제 도메인에서 가장 큰 성과를 낸다는 결론을 얻었습니다.

Evo-Memory와 ReMem 연구는 단순히 성능을 높이는 기법을 넘어, LLM 에이전트의 미래 방향을 제시합니다.

이번 연구가 던지는 핵심 메시지는 명확합니다.

1. LLM은 테스트타임에서도 학습할 수 있다

경험 재사용 기반 메모리 구조는 LLM이 문제를 해결하는 방식 자체를 진화시킬 수 있음을 보여줍니다.

2. 단순한 방식도 충분히 효과적이다

ExpRAG처럼 매우 단순한 접근도 의미 있는 성능 향상을 제공합니다.

3. ReMem은 LLM 에이전트가 ‘생각 → 행동 → 메모리 진화’의 루프를 가지게 만든다

이는 기존 ReAct보다 더 적극적인 전략적 사고를 가능하게 합니다.

4. 정적인 프롬프트 중심 시대에서, 동적 메모리 중심의 에이전트 시대로 이동 중이다

Evo-Memory는 이를 평가할 수 있는 최초의 종합적인 기준을 제시합니다.

300x250

Evo-Memory와 ReMem은 LLM 에이전트가 단순한 기억을 넘어 경험을 기반으로 성장할 수 있는지를 탐구하는 중요한 연구입니다.
경험을 저장하고, 검색하고, 심지어 재구성하면서 성능과 효율을 높이는 방법은 앞으로의 에이전트 아키텍처 설계에 강력한 기준이 될 것으로 보입니다.

이번 연구는 LLM이 단순히 “똑똑한 모델”이 아니라, 사용 중에도 진화할 수 있는 지능형 에이전트가 될 수 있음을 보여주는 중요한 이정표입니다.

https://arxiv.org/abs/2511.20857?fbclid=IwY2xjawOeEfRleHRuA2FlbQIxMABicmlkETE2UE5vR2xDNnZIN0FWMTVGc3J0YwZhcHBfaWQQMjIyMDM5MTc4ODIwMDg5MgABHgcvRdAfKWWfBBJefQ_XFicLzl_FVvdHHlLOrdV9XfqrDJJz-_8wsHskckdm_aem_TlBccuoNgw9pGEnm1wTvwA

Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory

Statefulness is essential for large language model (LLM) agents to perform long-term planning and problem-solving. This makes memory a critical component, yet its management and evolution remain largely underexplored. Existing evaluations mostly focus on s

arxiv.org

728x90

그리드형

저작자표시 비영리 변경금지 (새창열림)

'인공지능' 카테고리의 다른 글

Claude 4.5 Opus ‘소울 문서’ 논란 정리: AI 내부 가치 구조가 드러난 첫 사례 (0)	2025.12.05
AWS DevOps Agent 프리뷰 공개: 장애 대응을 자동화하는 새로운 DevOps 동반자 (0)	2025.12.04
Multi-Agent Collaboration via Evolving Orchestration 논문 리뷰 - LLM 멀티 에이전트 협업 방식 (0)	2025.12.04
오픈소스 LLM - Mistral 3 모델 제품군 새소식 (0)	2025.12.04
AWS Nova Forge로 쉽고 빠르게 만드는 기업 맞춤형 AI 모델 (0)	2025.12.04

평범한 직장인이 사는 세상

Evo-Memory와 ReMem: LLM 에이전트의 ‘경험 기반 학습’을 여는 새로운 접근

Evo-Memory가 등장한 이유

Evo-Memory란 무엇인가

기존: Conversational Recall

Evo-Memory: Experience Reuse

Evo-Memory 벤치마크의 구성

포함된 데이터셋

평가 기준은 네 가지

ExpRAG: 가장 단순한 경험 재사용 베이스라인

ReMem: Think, Act, Refine 기반의 진화형 에이전트

1. Think

2. Act

3. Refine

실험 결과: ReMem은 실제로 더 강했다

단일 턴 reasoning 성능

ToolBench

멀티턴 환경에서 성능 향상은 더 극적

Step Efficiency

성능 향상의 비밀: Task Similarity

이번 연구가 던지는 핵심 메시지는 명확합니다.

1. LLM은 테스트타임에서도 학습할 수 있다

2. 단순한 방식도 충분히 효과적이다

3. ReMem은 LLM 에이전트가 ‘생각 → 행동 → 메모리 진화’의 루프를 가지게 만든다

4. 정적인 프롬프트 중심 시대에서, 동적 메모리 중심의 에이전트 시대로 이동 중이다

'인공지능' 카테고리의 다른 글

티스토리툴바

Evo-Memory와 ReMem: LLM 에이전트의 ‘경험 기반 학습’을 여는 새로운 접근

Evo-Memory가 등장한 이유

Evo-Memory란 무엇인가

기존: Conversational Recall

Evo-Memory: Experience Reuse

Evo-Memory 벤치마크의 구성

포함된 데이터셋

평가 기준은 네 가지

ExpRAG: 가장 단순한 경험 재사용 베이스라인

ReMem: Think, Act, Refine 기반의 진화형 에이전트

1. Think

2. Act

3. Refine

실험 결과: ReMem은 실제로 더 강했다

단일 턴 reasoning 성능

ToolBench

멀티턴 환경에서 성능 향상은 더 극적

Step Efficiency

성능 향상의 비밀: Task Similarity

이번 연구가 던지는 핵심 메시지는 명확합니다.

1. LLM은 테스트타임에서도 학습할 수 있다

2. 단순한 방식도 충분히 효과적이다

3. ReMem은 LLM 에이전트가 ‘생각 → 행동 → 메모리 진화’의 루프를 가지게 만든다

4. 정적인 프롬프트 중심 시대에서, 동적 메모리 중심의 에이전트 시대로 이동 중이다

'인공지능' 카테고리의 다른 글

'인공지능' Related Articles

티스토리툴바