
이 글은 오픈소스 프로젝트 OpenMythos를 중심으로, Anthropic의 Claude Mythos가 어떤 구조적 원리를 가졌을 가능성이 있는지에 대한 이론적 재구성을 정리합니다. OpenMythos는 단순한 모델 공개나 파인튜닝이 아니라, 기존 연구와 수학적 근거를 바탕으로 한 가설적 아키텍처를 코드로 구현한 프로젝트입니다. 특히 Recurrent-Depth Transformer라는 구조를 통해, 적은 파라미터로도 더 깊은 추론을 수행할 수 있다는 점이 핵심입니다.
OpenMythos 프로젝트 개요
OpenMythos는 GitHub에 공개된 오픈소스 프로젝트로, Kye Gomez가 주도하여 PyTorch 기반으로 구현되었습니다. 이 프로젝트의 목표는 Anthropic이 공식적으로 공개하지 않은 Claude Mythos의 내부 구조를 추측하고, 이를 검증 가능한 형태의 코드 가설로 제시하는 데 있습니다.
중요한 점은 이 프로젝트가 유출 모델이나 증류 모델이 아니라는 점입니다. OpenMythos는 순수하게 이론과 선행 연구를 기반으로 한 재구성입니다.
핵심 주장: Recurrent-Depth Transformer
OpenMythos의 가장 중요한 가설은 Claude Mythos가 Recurrent-Depth Transformer(RDT), 또는 Looped Transformer 계열이라는 점입니다.
기존 GPT, LLaMA 계열 모델은 층(layer)이 깊어질수록 파라미터 수가 증가합니다. 반면 RDT는 동일한 가중치를 여러 번 반복 적용합니다. 즉, 모델의 추론 깊이는 파라미터 수가 아니라 추론 시 반복 횟수(T)에 의해 결정됩니다.
이는 책을 한 번 읽는 방식이 아니라, 같은 초안을 여러 번 다듬으며 사고를 정제하는 방식에 가깝습니다.
아키텍처 구성: Prelude → Recurrent Block → Coda
OpenMythos는 전체 구조를 세 부분으로 나눕니다.
- Prelude: 입력을 한 번만 처리하는 표준 트랜스포머 블록
- Recurrent Block: 모델의 핵심 계산 영역으로, 최대 T=16회 반복 실행
- Coda: 최종 출력을 생성하는 트랜스포머 블록
각 반복 단계에서의 상태 업데이트는 다음과 같은 형태를 가집니다.
- 이전 은닉 상태
- Prelude에서 인코딩된 입력을 매 반복마다 재주입
- 트랜스포머 연산 결과의 결합
입력을 매번 다시 주입하는 이유는 반복이 깊어질수록 원래 입력 신호에서 멀어지는 문제를 방지하기 위함입니다.
MoE와 반복 깊이의 결합
Recurrent Block 내부의 FFN은 일반적인 FFN이 아니라 Mixture-of-Experts(MoE) 구조를 사용합니다. 이 구조는 DeepSeekMoE에서 제안된 방식을 따릅니다.
특징은 다음과 같습니다.
- 토큰마다 일부 전문가만 활성화되는 희소 라우팅
- 항상 활성화되는 공유 전문가 존재
- 반복 깊이마다 서로 다른 전문가 조합 선택
이로 인해 동일한 가중치를 사용하더라도, 각 반복 단계는 계산적으로 서로 다른 성격을 갖게 됩니다. MoE는 도메인 범위를 넓히고, 반복은 추론 깊이를 제공합니다.
연속 잠재 공간에서의 추론
OpenMythos에서 추론은 토큰을 출력하지 않은 상태, 즉 연속 잠재 벡터 공간에서만 이루어집니다. 중간 사고 과정을 텍스트로 생성하지 않기 때문에, 기존 체인 오브 소트 프롬프트와 구조적으로 다릅니다.
연구 결과에 따르면, 이러한 반복은 토큰 기반 체인 오브 소트의 각 단계를 벡터 연산으로 대체한 것과 동일한 효과를 가집니다. 또한 연속 공간에서는 여러 가능한 다음 추론 경로를 동시에 유지할 수 있어, 단일 포워드 패스 내에서 더 넓은 탐색이 가능합니다.
이 구조의 실질적인 장점은 명확합니다.
기존 트랜스포머는 학습 시 본 추론 깊이를 넘어서면 성능이 급격히 저하됩니다. 반면 RDT는 추론 시 반복 횟수를 늘리는 것만으로 더 어려운 문제에 대응할 수 있습니다.
안정성 문제와 해결 전략
반복 구조에는 두 가지 대표적인 문제가 있습니다.
1. 잔차 폭주 문제
반복이 누적되며 은닉 상태가 발산하는 문제입니다. OpenMythos는 Parcae 아키텍처에서 차용한 LTI 제약을 사용해, 상태 전이 행렬의 스펙트럼 반경을 1 미만으로 강제합니다. 이를 통해 반복 횟수와 무관하게 안정성을 보장합니다.
2. 과도한 추론 문제
너무 많은 반복은 오히려 성능을 떨어뜨릴 수 있습니다. 이를 해결하기 위해 Adaptive Computation Time(ACT)를 적용해, 토큰별로 언제 반복을 멈출지 학습하도록 합니다. 쉬운 토큰은 일찍 종료되고, 어려운 토큰은 더 많은 연산을 받습니다.
또한 Depth-Wise LoRA를 사용해 반복 깊이마다 소규모 적응 행렬을 추가함으로써, 완전한 가중치 공유의 한계를 보완합니다.
사용 방식의 개념적 예시
OpenMythos의 사용 핵심은 단순합니다.
- 쉬운 문제: 적은 반복 횟수로 빠르게 종료
- 어려운 문제: 더 많은 반복을 허용해 깊은 추론 수행
이는 학습 없이도 추론 시점에서 계산량을 조절할 수 있음을 의미합니다.
OpenMythos는 단순한 모델 구현을 넘어, 대규모 언어 모델의 다음 설계 방향을 제시합니다. 파라미터를 무작정 늘리는 대신, 추론 깊이를 계산으로 분리하는 접근은 효율성과 확장성 측면에서 큰 의미를 가집니다.
이 프로젝트는 Claude Mythos의 실제 구조를 증명하지는 않지만, 충분히 구체적이고 반증 가능한 가설을 제시합니다. 이는 연구 커뮤니티가 실험하고 검증할 수 있는 출발점이 됩니다. 앞으로의 언어 모델은 “얼마나 큰가”보다 “얼마나 깊이 생각할 수 있는가”로 평가받게 될 가능성이 큽니다.
Meet OpenMythos: An Open-Source PyTorch Reconstruction of Claude Mythos Where 770M Parameters Match a 1.3B Transformer
Meet OpenMythos: An Open-Source PyTorch Reconstruction of Claude Mythos Where 770M Parameters Match a 1.3B Transformer
www.marktechpost.com

'인공지능' 카테고리의 다른 글
| Claude Opus 4.7 시스템 프롬프트 업데이트 핵심 정리와 의미 (0) | 2026.04.21 |
|---|---|
| Qwen3.6-Max-Preview 기술 프리뷰 정리: 에이전트 코딩과 지식 신뢰성을 강화한 차세대 모델 (0) | 2026.04.21 |
| 크로스 데이터센터 LLM 서빙을 재설계하다: PrfaaS 기반 KVCache 아키텍처의 핵심과 의미 (0) | 2026.04.20 |
| Qwen3.6 오픈 웨이트 대규모 언어 모델 총정리: 아키텍처, 성능, 활용 방법까지 (0) | 2026.04.20 |
| GPT-5.4 mini·nano 출시로 보는 서브에이전트 시대의 AI 모델 전략 (0) | 2026.04.20 |