본문 바로가기

인공지능

Agentic Organization과 AsyncThink: AI가 스스로 사고를 조직하는 새로운 추론 패러다임

728x90
반응형
728x170

이 글은 Microsoft Research가 발표한 Agentic Organization 개념과 이를 구현한 새로운 추론 패러다임 **AsyncThink(Asynchronous Thinking)**를 정리한 기술 블로그입니다.
기존 대규모 언어 모델(LLM)이 가진 한계를 짚고, AI가 어떻게 하나의 ‘지능’이 아니라 조직처럼 협력하며 사고하도록 학습되는지, 그 구조와 학습 방법, 실험 결과와 기술적 의미를 중심으로 설명합니다.

반응형

왜 Agentic Organization인가

기존 LLM은 기본적으로 하나의 뇌처럼 사고합니다.
단계적이고 선형적인 추론을 수행하며, 병렬 추론 역시 같은 사고 과정을 여러 번 실행한 뒤 결과를 합치는 방식에 가깝습니다.

Microsoft Research는 이러한 방식이 복잡한 문제 해결에서 **지연(latency)**과 확장성 한계를 가진다고 보았습니다.
이 문제를 해결하기 위해 제안된 개념이 바로 Agentic Organization입니다.

Agentic Organization은 새로운 모델 구조가 아니라,
지능이 스스로를 조직하는 방식 자체를 바꾸는 접근입니다.


AsyncThink 개요: 조직화된 비동기 사고

AsyncThink는 LLM이 내부적으로 Organizer와 Worker라는 역할을 나눠 수행하며,
복잡한 문제를 하위 문제로 분해하고 동시에 해결하도록 학습하는 새로운 추론 패러다임입니다.

핵심 특징은 다음과 같습니다.

  • 복잡한 문제를 하위 질의(Sub-query)로 분해
  • 여러 Worker가 동시에 사고 수행
  • Organizer가 결과를 수집·통합하며 전체 사고 흐름을 조정
  • 강화 학습을 통해 이러한 ‘조직화된 사고 방식’을 학습

이는 단순한 병렬 처리와 달리,
실시간 위임, 통합, 적응이 반복되는 동적인 사고 조직에 가깝습니다.


Organizer-Worker Thinking Protocol 구조

Organizer 역할

Organizer는 전체 사고를 총괄하며 다음 네 가지 행동을 수행합니다.

  • Think: Organizer 자신의 추론을 진행
  • Fork: Worker에게 하위 질의를 할당
  • Join: Worker의 결과를 회수하여 컨텍스트에 통합
  • Answer: 최종 추론을 종료하고 답변 생성

Fork와 Join은 명시적인 태그 기반 프로토콜로 정의되어 있으며,
동시에 활성화 가능한 Worker 수는 제한됩니다.


Worker 역할

Worker는 Organizer로부터 전달받은 Sub-query를 독립적으로 처리합니다.

  • 입력: 시스템 프롬프트 + Sub-query
  • 출력: 사고 결과 요약을 반환

Worker는 Organizer와 분리된 사고 흐름을 가지며,
Organizer는 필요할 때만 그 결과를 병합합니다.


모델 구조의 특징: 아키텍처 변경 없음

AsyncThink의 중요한 특징은
LLM의 내부 신경망 구조를 수정하지 않는다는 점입니다.

  • Fork/Join은 입출력 표면에서만 동작
  • 기존 LLM 위에 적용 가능
  • 사고 조직화는 전적으로 학습을 통해 획득

이는 실제 시스템 적용 측면에서 큰 장점으로 작용합니다.


AsyncThink 학습 방식

1단계: Cold-Start Format Fine-Tuning (SFT)

Organizer-Worker 사고 데이터가 부족하기 때문에,
GPT-4o를 활용해 합성 데이터를 생성합니다.

  • Query를 분석해 독립적인 사고 Fragment 식별
  • Organizer와 Worker Trace를 프로토콜 형식으로 생성
  • 형식 오류 데이터는 제거

또한, 모델이 다양한 조직화 정책을 학습하도록
무작위 Organizer 행동 시퀀스를 포함시킵니다.

이 단계의 목적은 정답 생성이 아닌 사고 형식 학습입니다.


2단계: Reinforcement Learning (RL)

강화 학습 단계에서는 정확도와 사고 효율을 동시에 최적화합니다.

보상 구조는 다음 요소로 구성됩니다.

  • 정확도 보상(R_A): 최종 답변의 정확성
  • 형식 보상(R_FE): Fork/Join 오류에 대한 패널티
  • 동시성 보상(R_η): 사고를 병렬로 조직하는 효율성

이 보상들을 결합해 Organizer와 Worker 정책을 공동으로 최적화합니다.


실험 결과 및 성능

AsyncThink는 다음 과제에서 평가되었습니다.

  • Multi-Solution Countdown
  • 수학 추론 (AMC-23, AIME-24)
  • Sudoku

평가 지표는 최종 답변 정확도Critical-Path Latency입니다.

주요 결과는 다음과 같습니다.

  • 수학 추론에서 Parallel Thinking 대비 28% 낮은 Latency
  • 정확도는 기존 Sequential/Parallel Thinking보다 높음
  • 학습되지 않은 Sudoku 문제에서도 높은 정확도와 낮은 Latency 달성
  • 조직화된 비동기 사고 능력이 제로샷 일반화됨을 입증

이는 AsyncThink가 단순히 빠른 추론이 아니라,
사고 구조 자체를 학습했음을 의미합니다.


기술적 의미: 지능에서 조직으로

AsyncThink는 “지능적인 에이전트”를 넘어
“지능적인 조직”으로의 확장을 보여줍니다.

  • 생각을 더 빨리 하는 것이 아니라
  • 생각을 분해하고, 위임하고, 병합하고, 재구성하는 능력
  • 추론 중에도 조직 정책이 진화

이는 LLM을 단순한 추론 엔진이 아니라
사후적 사고 조정이 가능한 정보 시스템으로 확장하는 접근입니다.


728x90

Microsoft Research의 AsyncThink는
AI가 복잡한 문제를 해결하는 방식을 근본적으로 재정의합니다.

  • 하나의 뇌처럼 사고하던 AI에서
  • 조직처럼 협력하고 조율하는 AI로의 전환

이 접근이 확장된다면,
미래의 AI는 단일 모델이 아니라 **하나의 ‘생각하는 조직’**처럼 동작할 가능성이 큽니다.

Agentic Organization은 AI 추론의 성능 개선을 넘어,
지능을 설계하는 방식 자체가 바뀌고 있음을 보여주는 신호라고 볼 수 있습니다.

300x250

http://arxiv.org/pdf/2510.26658

728x90
반응형
그리드형