
이 글은 OpenMythos라는 오픈소스 프로젝트를 중심으로, 최근 주목받고 있는 Recurrent-Depth Transformer(RDT), 즉 Looped Transformer 아키텍처의 개념과 배경, 구조적 특징, 그리고 왜 이러한 구조가 기존 트랜스포머 대비 강력한 추론 성능을 보이는지를 정리한 기술 블로그입니다.
입력된 공개 자료와 이론적 가설을 기반으로, OpenMythos가 어떤 문제의식에서 출발했고, 어떤 기술적 선택을 통해 “깊은 추론”을 가능하게 하는지 독자 입장에서 이해하기 쉽게 설명합니다.
OpenMythos란 무엇인가
OpenMythos는 Claude Mythos 모델에 대한 이론적 재구성을 목표로 하는 커뮤니티 주도의 오픈소스 프로젝트입니다.
중요한 점은 다음과 같습니다.
- 공개된 연구와 추측만을 기반으로 한 구현
- 특정 기업이나 실제 상용 모델과의 직접적인 연관 없음
- 실험과 연구를 위한 이론적·교육적 구현체
즉, OpenMythos는 “이런 구조라면 왜 Mythos 계열 모델이 강력한 추론을 보이는지 설명할 수 있다”는 가설을 코드로 옮긴 프로젝트라고 볼 수 있습니다.
Recurrent-Depth Transformer(RDT)의 기본 개념
기존 트랜스포머는 레이어를 위로 계속 쌓는 방식으로 깊이를 확보합니다. 반면 RDT는 전혀 다른 접근을 취합니다.
- 일부 레이어를 여러 번 반복 실행
- 파라미터는 그대로 두고 추론 깊이만 증가
- 한 번의 forward pass 안에서 내부적으로 여러 단계의 사고 수행
이 구조는 Looped Transformer 또는 Recurrent Transformer라고도 불립니다.
OpenMythos의 전체 아키텍처 구조
OpenMythos는 세 개의 블록으로 구성됩니다.
1. Prelude
- 일반적인 트랜스포머 레이어
- 입력을 한 번 인코딩
- 이후 반복 구조에서 사용할 입력 표현 생성
2. Recurrent Block
- 핵심 추론 블록
- 동일한 가중치를 가진 트랜스포머 블록을 여러 번 반복
- 반복 횟수는 추론 시점에 조절 가능
반복 업데이트 규칙은 다음과 같은 형태를 가집니다.
- 이전 은닉 상태 hₜ
- 입력에서 생성된 고정 표현 e를 매 반복마다 주입
- 학습된 행렬 A, B를 통해 안정적인 상태 전이 보장
이 입력 주입 구조 덕분에 반복이 깊어져도 정보가 소실되거나 드리프트하지 않습니다.
3. Coda
- 반복 추론이 끝난 뒤의 후처리 레이어
- 최종 출력 생성
왜 Looped Transformer가 강력한가
1. 시스템적 일반화 능력
기존 트랜스포머는 학습 데이터 분포를 벗어난 조합 문제에 약합니다.
반면 반복 구조 모델은 다음과 같은 단계를 거쳐 성능이 “갑자기” 향상됩니다.
- 암기 단계
- 분포 내 일반화
- 분포 밖 조합 일반화
이 급격한 전이 특성이 Mythos 계열 모델의 인상적인 추론 능력을 설명합니다.
2. 추론 깊이의 외삽 가능성
- 학습: 5단계 추론
- 추론: 10단계 문제
기존 모델은 실패하지만, Looped Transformer는 반복 횟수만 늘려 해결할 수 있습니다.
이는 체인 오브 소트(CoT)를 출력하지 않아도 깊은 추론이 가능한 이유입니다.
3. 잠재 공간에서의 암묵적 Chain-of-Thought
각 반복은 토큰이 아닌 연속적인 잠재 공간(latent space)에서의 사고 단계에 해당합니다.
- 여러 가능성을 동시에 유지
- 단일 경로가 아닌 탐색적 추론
- breadth-first search에 가까운 내부 연산
이로 인해 모델은 더 안정적이고 유연한 추론을 수행합니다.
4. 파라미터 폭증이 없다
k개의 레이어를 L번 반복하면,
이론적으로는 k×L 레이어 효과를 얻습니다.
하지만 실제 파라미터 수는 k개 레이어 분량뿐입니다.
- 메모리 사용량 고정
- 추론 비용은 반복 횟수에 비례
- “깊은 사고”가 파라미터 측면에서 거의 공짜
반복 구조의 안정성 문제와 해결 방식
반복 모델의 대표적 실패 원인
- 은닉 상태 폭주
- 학습 중 손실 급증
이를 동적 시스템(LTI 시스템)으로 해석하면 문제의 핵심은 명확합니다.
- 상태 전이 행렬 A의 스펙트럴 반경 ρ(A)
- ρ(A) < 1 이면 안정
- ρ(A) ≥ 1 이면 발산
해결 전략
OpenMythos가 따르는 접근은 다음과 같습니다.
- A를 음수 대각 행렬로 파라미터화
- 연속 시스템을 이산화
- 학습 중에도 항상 안정 조건 만족
이 방식은 Parcae 아키텍처에서 제안된 안정적 반복 학습 기법과 일치합니다.
Mixture of Experts(MoE)와 반복 구조의 결합
깊이는 반복으로, 폭은 MoE로 해결합니다.
- FFN을 다수의 소형 expert로 분리
- 토큰마다 일부 expert만 활성화
- 항상 활성화되는 shared expert로 공통 지식 유지
반복이 진행되면서 선택되는 expert 조합도 달라질 수 있어,
같은 가중치라도 각 반복은 다른 계산을 수행하게 됩니다.
OpenMythos 사용 방법 예시
설치
pip install open-mythos
기본 사용 흐름 요약
- MythosConfig로 모델 크기, 반복 횟수, attention 타입 설정
- OpenMythos 객체 생성
- forward 또는 generate 호출 시 반복 횟수 조절
이 구조 덕분에 추론 난이도에 따라 계산량을 동적으로 늘리는 실험이 가능합니다.
모델 스케일링과 사전 구성 Variant
OpenMythos는 1B부터 1T까지 다양한 이론적 스케일 구성을 제공합니다.
- 반복 횟수 증가 → 추론 성능 향상
- 파라미터 수 대비 효율적인 성능
- 실제 품질은 반복 깊이에 크게 의존
이는 “모델이 커서 똑똑하다”가 아니라
“더 오래 생각해서 똑똑하다”는 관점을 뒷받침합니다.
OpenMythos는 단순한 오픈소스 모델 구현을 넘어, 다음과 같은 중요한 메시지를 던집니다.
- 추론 성능은 반드시 파라미터 수에 비례하지 않는다
- 깊이는 레이어 수가 아니라 계산 과정에서 나온다
- 반복 구조는 효율적인 추론 확장의 강력한 대안이다
앞으로의 대규모 언어 모델은
“얼마나 큰가”보다
“어떻게, 얼마나 깊이 생각하는가”가 더 중요해질 가능성이 큽니다.
OpenMythos는 그 방향을 탐구하기 위한 매우 의미 있는 실험 무대라고 할 수 있습니다.
https://github.com/kyegomez/OpenMythos
GitHub - kyegomez/OpenMythos: A theoretical reconstruction of the Claude Mythos architecture, built from first principles using
A theoretical reconstruction of the Claude Mythos architecture, built from first principles using the available research literature. - kyegomez/OpenMythos
github.com

'인공지능' 카테고리의 다른 글
| AI는 왜 창의성의 궁극적인 가속기인가 ― 자동화를 넘어 인간의 상상력과 의미를 확장하는 기술 활용 전략 (0) | 2026.04.20 |
|---|---|
| Claude Opus 4.7 출시로 달라진 점: 에이전트 코딩과 고해상도 비전, 장기 자율 작업의 진화 (0) | 2026.04.20 |
| AI 코딩 에이전트 시대, 문서는 어떻게 달라져야 하는가: Agentic Engine Optimization(AEO) 정리 (0) | 2026.04.20 |
| GPT-Rosalind 소개: 생명과학 연구와 신약 개발을 가속하는 목적 특화 AI 모델 (0) | 2026.04.18 |
| 브라우저에서 직접 일하는 AI 에이전트, Hugging Face HoloTab으로 보는 컴퓨터 사용 기술의 진화 (0) | 2026.04.18 |