
AI 에이전트는 웹 브라우징, 소프트웨어 디버깅, 다단계 문제 해결 등 복잡한 작업을 수행할 수 있습니다. 그러나 지금까지의 한계는 명확합니다. 이들은 반복적으로 같은 실수를 하고, 성공과 실패 경험을 종합적으로 축적해 미래 행동을 개선하지 못한다는 점입니다. 기존의 메모리 시스템은 단순히 로그를 저장하거나 성공 사례만 남기는 방식이 많아, 실제 환경에서 재사용하기 어렵고 실패에서 배울 기회를 잃었습니다.
구글 리서치는 이러한 문제를 해결하기 위해 ReasoningBank라는 새로운 메모리 프레임워크를 제안했습니다. 이 시스템은 에이전트의 상호작용 흔적을 압축된 전략 단위로 변환해 저장하고, 이를 기반으로 스스로 진화할 수 있도록 합니다. 또한, **Memory-aware Test-Time Scaling(MaTTS)**라는 새로운 접근을 결합하여 성능과 효율성을 크게 높였습니다. 이번 글에서는 ReasoningBank의 개념, 작동 방식, 그리고 연구 성과를 상세히 살펴봅니다.
기존 접근의 한계
대규모 언어 모델(LLM) 기반 에이전트는 멀티스텝 과제를 수행할 수 있지만, 경험을 누적하고 재사용하는 데 실패하는 경우가 많습니다. 기존의 메모리 설계에는 몇 가지 문제가 있습니다.
- 로그 저장 방식의 한계
단순히 실행 기록(trajectory)을 저장하면 새로운 환경에 적용하기 어렵습니다. - 성공 사례 중심의 편향
성공한 결과만 저장할 경우, 실패에서 얻을 수 있는 중요한 교훈을 무시하게 됩니다. - 환경 의존성
특정 도메인이나 구조에 종속된 워크플로우는 다른 환경에 그대로 전이되지 않습니다.
이 때문에 기존 메모리 시스템은 유연성이 부족하고, 반복적인 오류를 피할 수 없는 구조였습니다.

ReasoningBank의 핵심 아이디어
ReasoningBank는 메모리를 단순한 기록이 아니라 전략 수준의 추상화로 재정의합니다.
- 전략 단위로 저장
각 경험은 제목, 한 줄 설명, 실행 가능한 원칙(heuristics, 제약, 체크리스트)으로 압축된 메모리 아이템으로 변환됩니다. - 실패 경험의 활용
성공뿐 아니라 실패에서 얻은 제약 조건(예: "사이트가 인덱싱을 차단했을 때 검색 기능에 의존하지 말 것")도 함께 저장하여 반복적인 실수를 방지합니다. - 간단한 루프 구조
메모리 업데이트는 단순한 다섯 단계로 구성됩니다.- Retrieve → Inject → Judge → Distill → Append
즉, 기존 전략을 검색하고, 새로운 작업에 주입하며, 실행 후 결과를 평가하고, 새로운 교훈을 압축하여 다시 추가하는 방식입니다.
- Retrieve → Inject → Judge → Distill → Append
이 단순하고 반복적인 구조 덕분에 ReasoningBank는 복잡한 메모리 관리 기법에 의존하지 않고도 효과적인 학습과 전이를 가능하게 합니다.
전이성이 높은 이유
ReasoningBank가 강력한 이유는 경험을 "구체적인 행동 단계"가 아닌 "일반화된 사고 전략"으로 저장하기 때문입니다.
- 웹 작업 예시
- 전략: "개인화된 데이터는 계정 페이지를 우선 탐색"
- 제약: "무한 스크롤은 피하고 페이지네이션 여부 확인"
- 실패에서 배운 교훈
- "검색이 차단된 사이트에서는 검색 기능 사용 금지"
- "저장 상태를 확인한 후 페이지 이동"
이처럼 ReasoningBank가 남기는 전략은 특정 사이트나 코드 구조에 종속되지 않으므로, 다양한 환경에서 재사용이 가능합니다.
MaTTS: Memory-aware Test-Time Scaling
ReasoningBank와 함께 제안된 또 하나의 핵심 개념은 **Memory-aware Test-Time Scaling(MaTTS)**입니다. 기존 Test-time scaling은 단순히 더 많은 실행 시도를 통해 성능을 높이려 했습니다. 하지만 이는 추가 시도를 통해 얻은 경험을 체계적으로 활용하지 못하는 문제가 있었습니다.
MaTTS는 ReasoningBank와 결합하여 이 문제를 해결합니다.
- Parallel MaTTS
여러 개의 실행 결과를 병렬로 생성한 뒤, 서로 비교·대조하여 전략 메모리에 반영합니다. - Sequential MaTTS
하나의 실행 경로를 점진적으로 개선하면서 중간 단계의 학습 신호까지 메모리에 저장합니다.
이 과정에서 더 풍부한 탐색이 더 나은 메모리를 만들고, 더 나은 메모리가 다시 탐색을 효율적으로 이끄는 선순환 구조가 형성됩니다.
연구 성과
실험 결과 ReasoningBank와 MaTTS의 결합은 기존 접근 방식 대비 큰 개선을 보였습니다.
- 효과성
- 작업 성공률이 최대 34.2% 향상
- 기존의 원시 로그 기반 메모리나 성공 사례만 저장하는 방식보다 높은 성능
- 효율성
- 상호작용 단계 수 16% 감소
- 특히 성공한 작업에서 불필요한 반복을 줄이는 효과 확인
이는 단순히 성능 수치의 개선을 넘어, 에이전트가 "자신의 경험으로부터 스스로 성장하는" 가능성을 실험적으로 증명한 결과라 할 수 있습니다.
에이전트 스택에서의 위치
ReasoningBank는 독립적인 프레임워크라기보다는 기존 에이전트 구조에 플러그인 형태로 결합되는 메모리 계층입니다.
- ReAct 스타일 루프나 Best-of-N Test-Time Scaling을 사용하는 에이전트에 바로 적용 가능
- 웹 작업: BrowserGym, WebArena, Mind2Web 등과 결합 가능
- 소프트웨어 작업: SWE-Bench-Verified와 같은 환경 위에서 활용 가능
즉, ReasoningBank는 에이전트의 기반 알고리즘을 바꾸는 것이 아니라, 전략적 기억을 추가해 기존 방식을 증폭시키는 역할을 합니다.
ReasoningBank와 MaTTS는 단순한 메모리 관리 기법을 넘어, AI 에이전트가 스스로의 경험에서 배우고 진화할 수 있는 구조를 보여줍니다.
기존의 실패를 무시하는 방식에서 벗어나, 성공과 실패 모두를 전략적 지식으로 변환하는 이 접근은 AI 자기학습의 중요한 전환점이 될 수 있습니다. 앞으로 ReasoningBank가 다양한 분야의 에이전트 기술에 결합된다면, 인간의 개입 없이도 지속적으로 성장하는 자율형 시스템의 기반이 마련될 것으로 기대됩니다.
Google AI Proposes ReasoningBank: A Strategy-Level I Agent Memory Framework that Makes LLM Agents Self-Evolve at Test Time
Google AI Proposes ReasoningBank: A Strategy-Level AI Agent Memory Framework that Makes LLM Agents Self-Evolve at Test Time
www.marktechpost.com

'인공지능' 카테고리의 다른 글
| IBM Granite 4.0: 기업을 위한 차세대 하이브리드 AI 모델 (0) | 2025.10.04 |
|---|---|
| F3: 데이터 시대를 위한 미래 보장 컬럼형 파일 포맷 (0) | 2025.10.03 |
| AI 검색 최적화: 왜 지금 당신의 브랜드에 필요한가? (0) | 2025.10.02 |
| GitHub Copilot Coding Agent 101: 개발 워크플로를 자동화하는 새로운 방식 (0) | 2025.10.02 |
| 애자일은 지고, 아키텍처가 돌아왔다: AI 시대 개발자의 새로운 역할 (0) | 2025.10.02 |