본문 바로가기

인공지능

Evo-Memory와 ReMem: LLM 에이전트의 ‘경험 기반 학습’을 여는 새로운 접근

반응형
728x170

Google DeepMind와 UIUC 연구진이 발표한 Evo-Memory와 ReMem 프레임워크는 LLM 에이전트가 단순히 정보를 저장하는 수준을 넘어, 실제로 경험을 재사용하고 진화할 수 있는지를 본격적으로 시험하는 연구입니다.
이번 글에서는 Evo-Memory가 왜 중요한지, 기존 메모리 방식과 무엇이 다른지, 그리고 ReMem이 어떻게 LLM 에이전트의 추론과 행동을 한 단계 끌어올렸는지 상세히 정리합니다.

반응형

Evo-Memory가 등장한 이유

LLM 에이전트는 점점 더 많은 정보를 기억하고 저장하고 있습니다. 그러나 문제는 명확합니다.
이렇게 저장한 경험을 실제로 활용해 더 나은 의사결정을 할 수 있는가, 아니면 그저 과거 문맥을 불러오기만 하는가입니다.

대부분의 에이전트가 사용하는 방식은 conversational recall, 즉 단순한 대화 기록이나 도구 호출 로그를 그대로 문맥창(context window)으로 다시 불러오는 방식입니다. 이 방식은 과거 사실을 되짚는 데는 유용하지만, 새로운 문제를 해결하기 위한 전략적 발전을 만들어내지 못한다는 한계가 있습니다.

연구진은 이 문제를 해결하기 위해 LLM이 테스트타임(test-time)에서 스스로 진화할 수 있는지를 평가하는 새로운 기준이 필요하다고 주장하며, 이를 위해 Evo-Memory를 제안했습니다.


Evo-Memory란 무엇인가

Evo-Memory는 연속적(task stream)으로 쏟아지는 문제들을 통해, LLM이 경험을 축적하고 재사용할 수 있는지를 평가하는 스트리밍 벤치마크입니다.
여기서는 각 상호작용이 단순한 입력·출력을 넘어서, 성공 여부와 사용된 전략까지 하나의 경험으로 기록됩니다.

핵심 차이는 다음과 같습니다.

기존: Conversational Recall

  • 단순히 대화를 저장
  • 사실·입력·과거 내용을 다시 불러오는 용도
  • 전략 발전은 없음

Evo-Memory: Experience Reuse

  • 각 상호작용을 하나의 “경험”으로 정의
  • 성공 여부, 전략, 피드백까지 포함
  • 새로운 문제에서 이 경험을 검색하고 재사용
  • 시간이 지날수록 메모리를 업데이트하고 최적화

연구진은 메모리 기반 에이전트를 **(F, U, R, C)**라는 네 가지 구성요소로 공식화했습니다.

  • F(Function): 기본 LLM
  • R(Retrieval): 경험 검색
  • C(Context Constructor): 현재 입력과 검색한 경험을 하나의 프롬프트로 구성
  • U(Update): 새로운 경험을 메모리에 기록하고 최적화

이 구조는 기존의 정적인 메모리와 달리, 지속적으로 변화하는 동적 메모리 구조를 실험할 수 있게 만듭니다.


Evo-Memory 벤치마크의 구성

Evo-Memory는 기존의 문제집 형태 데이터셋을 순차적 문제 스트림으로 재구성합니다.
초반 문제의 해결 전략이 후반 문제에 도움이 되도록 설계되어 있어, 경험 재사용 능력을 직접 시험합니다.

포함된 데이터셋

  • AIME 24, AIME 25 (수학)
  • GPQA Diamond (지식 기반 QA)
  • MMLU-Pro (경제, 공학, 철학 등)
  • ToolBench (도구 활용)
  • AgentBoard의 다양한 환경
    • AlfWorld
    • BabyAI
    • ScienceWorld
    • Jericho
    • PDDL Planning

평가 기준은 네 가지

  1. 정확도(Exact Match) 또는 Answer Accuracy
  2. Embodied 환경 성능 (성공률, 진행도)
  3. Step Efficiency (적은 단계로 해결하는가)
  4. Sequence Robustness (문제 순서가 달라져도 안정적인가)

이 네 가지 기준은 LLM 에이전트가 단순 회상 수준이 아니라 점진적 적응 능력을 갖췄는지 평가합니다.


ExpRAG: 가장 단순한 경험 재사용 베이스라인

연구진은 기준선을 세우기 위해 ExpRAG라는 매우 단순한 경험 재사용 방식도 제안했습니다.

각 문제는 다음 구조의 경험으로 저장됩니다.

  • 입력(x)
  • 모델 출력(y_hat)
  • 피드백(f)

새로운 문제를 풀 때는 다음과 같이 동작합니다.

  1. 기존 경험 중 유사한 경험을 검색
  2. 검색된 경험들을 프롬프트에 함께 넣어 in-context example로 활용
  3. 문제 해결 후 새로운 경험을 다시 저장

이 방법은 구조가 매우 단순하며, 모델 행동 루프 자체를 변경하지 않습니다.
그럼에도 테스트 결과는 놀라웠습니다.

  • 단일 턴 벤치마크에서 평균 0.60 수준의 정확도
  • 여러 복잡한 메모리 아키텍처보다 성능이 더 높게 나오는 경우도 존재

이는 경험 재사용만으로도 성능 향상이 가능함을 보여주는 근거가 됩니다.


ReMem: Think, Act, Refine 기반의 진화형 에이전트

연구의 핵심 기여는 ReMem이라는 새로운 에이전트 프레임워크입니다.
ReMem은 단순히 경험을 불러오는 것이 아니라, reasoning 과정에서 메모리를 능동적으로 수정하고 재구성합니다.

ReMem은 세 가지 단계로 이루어진 루프를 가집니다.

1. Think

  • 문제를 다양한 reasoning step으로 분해
  • 중간 사고(trace)를 생성

2. Act

  • 환경에서 행동 수행
  • 또는 최종 답변 출력

3. Refine

  • 메모리 항목을 검색, 수정, 재구성
  • 비효율적인 경험은 정리하고 더 유용한 경험을 강화

이 과정은 ReAct 스타일 에이전트와 달리, 메모리를 수동적 저장소가 아닌 조작 가능한 객체로 다룹니다.
즉, ReMem 에이전트는 문제를 해결하면서 스스로 메모리를 가공하고 최적화합니다.


실험 결과: ReMem은 실제로 더 강했다

연구진은 Gemini 2.5 Flash와 Claude 3.7 Sonnet 모델을 대상으로 동일한 프로토콜에서 실험했습니다.

단일 턴 reasoning 성능

  • ReMem (Gemini 2.5 Flash): 평균 정확도 0.65
  • ExpRAG: 평균 0.60
  • 기존 히스토리 기반 방식보다 안정적 향상

ToolBench

  • ReMem: API 성공률 0.85, 정확도 0.71
  • ExpRAG도 여러 복잡한 방식보다 더 뛰어난 성능

멀티턴 환경에서 성능 향상은 더 극적

(Claude 3.7 Sonnet 기준)

  • AlfWorld: 성공률 0.92, 진행도 0.96
  • BabyAI: 성공률 0.73
  • PDDL: 성공률 0.83
  • ScienceWorld: 성공률 0.62
  • 평균 성공률 0.78, 진행도 0.91

Gemini 기반에서도 모든 환경에서 ReMem이 기존 대비 향상된 성능을 보였습니다.

Step Efficiency

ReMem은 문제를 풀기 위한 평균 단계 수를 의미 있게 줄였습니다.

예: AlfWorld

  • 기존: 22.6 step
  • ReMem: 11.5 step

즉, 경험 재사용은 정확도뿐 아니라 효율성도 개선합니다.

성능 향상의 비밀: Task Similarity

연구진은 경험 기반 메모리가 특히 구조가 유사한 문제들에서 강력한 효과를 낸다는 사실을 확인했습니다.

유사도가 높을수록 ReMem의 성능 향상 폭이 커졌고, 상관계수는 다음과 같습니다.

  • Gemini 2.5 Flash: 0.72
  • Claude 3.7 Sonnet: 0.56

즉, ReMem은 규칙성이 있는 문제 도메인에서 가장 큰 성과를 낸다는 결론을 얻었습니다.


Evo-Memory와 ReMem 연구는 단순히 성능을 높이는 기법을 넘어, LLM 에이전트의 미래 방향을 제시합니다.

이번 연구가 던지는 핵심 메시지는 명확합니다.

1. LLM은 테스트타임에서도 학습할 수 있다

경험 재사용 기반 메모리 구조는 LLM이 문제를 해결하는 방식 자체를 진화시킬 수 있음을 보여줍니다.

2. 단순한 방식도 충분히 효과적이다

ExpRAG처럼 매우 단순한 접근도 의미 있는 성능 향상을 제공합니다.

3. ReMem은 LLM 에이전트가 ‘생각 → 행동 → 메모리 진화’의 루프를 가지게 만든다

이는 기존 ReAct보다 더 적극적인 전략적 사고를 가능하게 합니다.

4. 정적인 프롬프트 중심 시대에서, 동적 메모리 중심의 에이전트 시대로 이동 중이다

Evo-Memory는 이를 평가할 수 있는 최초의 종합적인 기준을 제시합니다.


300x250

Evo-Memory와 ReMem은 LLM 에이전트가 단순한 기억을 넘어 경험을 기반으로 성장할 수 있는지를 탐구하는 중요한 연구입니다.
경험을 저장하고, 검색하고, 심지어 재구성하면서 성능과 효율을 높이는 방법은 앞으로의 에이전트 아키텍처 설계에 강력한 기준이 될 것으로 보입니다.

이번 연구는 LLM이 단순히 “똑똑한 모델”이 아니라, 사용 중에도 진화할 수 있는 지능형 에이전트가 될 수 있음을 보여주는 중요한 이정표입니다.

https://arxiv.org/abs/2511.20857?fbclid=IwY2xjawOeEfRleHRuA2FlbQIxMABicmlkETE2UE5vR2xDNnZIN0FWMTVGc3J0YwZhcHBfaWQQMjIyMDM5MTc4ODIwMDg5MgABHgcvRdAfKWWfBBJefQ_XFicLzl_FVvdHHlLOrdV9XfqrDJJz-_8wsHskckdm_aem_TlBccuoNgw9pGEnm1wTvwA

 

Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory

Statefulness is essential for large language model (LLM) agents to perform long-term planning and problem-solving. This makes memory a critical component, yet its management and evolution remain largely underexplored. Existing evaluations mostly focus on s

arxiv.org

728x90
반응형
그리드형