OpenMythos 아키텍처 분석: 7.7억 파라미터로 13억 트랜스포머급 성능을 노리는 재귀 깊이 모델의 설계

728x90

728x170

이 글은 오픈소스 프로젝트 OpenMythos를 중심으로, Anthropic의 Claude Mythos가 어떤 구조적 원리를 가졌을 가능성이 있는지에 대한 이론적 재구성을 정리합니다. OpenMythos는 단순한 모델 공개나 파인튜닝이 아니라, 기존 연구와 수학적 근거를 바탕으로 한 가설적 아키텍처를 코드로 구현한 프로젝트입니다. 특히 Recurrent-Depth Transformer라는 구조를 통해, 적은 파라미터로도 더 깊은 추론을 수행할 수 있다는 점이 핵심입니다.

OpenMythos 프로젝트 개요

OpenMythos는 GitHub에 공개된 오픈소스 프로젝트로, Kye Gomez가 주도하여 PyTorch 기반으로 구현되었습니다. 이 프로젝트의 목표는 Anthropic이 공식적으로 공개하지 않은 Claude Mythos의 내부 구조를 추측하고, 이를 검증 가능한 형태의 코드 가설로 제시하는 데 있습니다.
중요한 점은 이 프로젝트가 유출 모델이나 증류 모델이 아니라는 점입니다. OpenMythos는 순수하게 이론과 선행 연구를 기반으로 한 재구성입니다.

핵심 주장: Recurrent-Depth Transformer

OpenMythos의 가장 중요한 가설은 Claude Mythos가 Recurrent-Depth Transformer(RDT), 또는 Looped Transformer 계열이라는 점입니다.

기존 GPT, LLaMA 계열 모델은 층(layer)이 깊어질수록 파라미터 수가 증가합니다. 반면 RDT는 동일한 가중치를 여러 번 반복 적용합니다. 즉, 모델의 추론 깊이는 파라미터 수가 아니라 추론 시 반복 횟수(T)에 의해 결정됩니다.
이는 책을 한 번 읽는 방식이 아니라, 같은 초안을 여러 번 다듬으며 사고를 정제하는 방식에 가깝습니다.

아키텍처 구성: Prelude → Recurrent Block → Coda

OpenMythos는 전체 구조를 세 부분으로 나눕니다.

Prelude: 입력을 한 번만 처리하는 표준 트랜스포머 블록
Recurrent Block: 모델의 핵심 계산 영역으로, 최대 T=16회 반복 실행
Coda: 최종 출력을 생성하는 트랜스포머 블록

각 반복 단계에서의 상태 업데이트는 다음과 같은 형태를 가집니다.

이전 은닉 상태
Prelude에서 인코딩된 입력을 매 반복마다 재주입
트랜스포머 연산 결과의 결합

입력을 매번 다시 주입하는 이유는 반복이 깊어질수록 원래 입력 신호에서 멀어지는 문제를 방지하기 위함입니다.

MoE와 반복 깊이의 결합

Recurrent Block 내부의 FFN은 일반적인 FFN이 아니라 Mixture-of-Experts(MoE) 구조를 사용합니다. 이 구조는 DeepSeekMoE에서 제안된 방식을 따릅니다.

특징은 다음과 같습니다.

토큰마다 일부 전문가만 활성화되는 희소 라우팅
항상 활성화되는 공유 전문가 존재
반복 깊이마다 서로 다른 전문가 조합 선택

이로 인해 동일한 가중치를 사용하더라도, 각 반복 단계는 계산적으로 서로 다른 성격을 갖게 됩니다. MoE는 도메인 범위를 넓히고, 반복은 추론 깊이를 제공합니다.

연속 잠재 공간에서의 추론

OpenMythos에서 추론은 토큰을 출력하지 않은 상태, 즉 연속 잠재 벡터 공간에서만 이루어집니다. 중간 사고 과정을 텍스트로 생성하지 않기 때문에, 기존 체인 오브 소트 프롬프트와 구조적으로 다릅니다.

연구 결과에 따르면, 이러한 반복은 토큰 기반 체인 오브 소트의 각 단계를 벡터 연산으로 대체한 것과 동일한 효과를 가집니다. 또한 연속 공간에서는 여러 가능한 다음 추론 경로를 동시에 유지할 수 있어, 단일 포워드 패스 내에서 더 넓은 탐색이 가능합니다.

이 구조의 실질적인 장점은 명확합니다.
기존 트랜스포머는 학습 시 본 추론 깊이를 넘어서면 성능이 급격히 저하됩니다. 반면 RDT는 추론 시 반복 횟수를 늘리는 것만으로 더 어려운 문제에 대응할 수 있습니다.

안정성 문제와 해결 전략

반복 구조에는 두 가지 대표적인 문제가 있습니다.

1. 잔차 폭주 문제

반복이 누적되며 은닉 상태가 발산하는 문제입니다. OpenMythos는 Parcae 아키텍처에서 차용한 LTI 제약을 사용해, 상태 전이 행렬의 스펙트럼 반경을 1 미만으로 강제합니다. 이를 통해 반복 횟수와 무관하게 안정성을 보장합니다.

2. 과도한 추론 문제

너무 많은 반복은 오히려 성능을 떨어뜨릴 수 있습니다. 이를 해결하기 위해 Adaptive Computation Time(ACT)를 적용해, 토큰별로 언제 반복을 멈출지 학습하도록 합니다. 쉬운 토큰은 일찍 종료되고, 어려운 토큰은 더 많은 연산을 받습니다.

또한 Depth-Wise LoRA를 사용해 반복 깊이마다 소규모 적응 행렬을 추가함으로써, 완전한 가중치 공유의 한계를 보완합니다.

사용 방식의 개념적 예시

OpenMythos의 사용 핵심은 단순합니다.

쉬운 문제: 적은 반복 횟수로 빠르게 종료
어려운 문제: 더 많은 반복을 허용해 깊은 추론 수행

이는 학습 없이도 추론 시점에서 계산량을 조절할 수 있음을 의미합니다.

728x90

OpenMythos는 단순한 모델 구현을 넘어, 대규모 언어 모델의 다음 설계 방향을 제시합니다. 파라미터를 무작정 늘리는 대신, 추론 깊이를 계산으로 분리하는 접근은 효율성과 확장성 측면에서 큰 의미를 가집니다.

이 프로젝트는 Claude Mythos의 실제 구조를 증명하지는 않지만, 충분히 구체적이고 반증 가능한 가설을 제시합니다. 이는 연구 커뮤니티가 실험하고 검증할 수 있는 출발점이 됩니다. 앞으로의 언어 모델은 “얼마나 큰가”보다 “얼마나 깊이 생각할 수 있는가”로 평가받게 될 가능성이 큽니다.

300x250

https://www.marktechpost.com/2026/04/19/meet-openmythos-an-open-source-pytorch-reconstruction-of-claude-mythos-where-770m-parameters-match-a-1-3b-transformer/?fbclid=IwY2xjawRUMCtleHRuA2FlbQIxMQBzcnRjBmFwcF9pZBAyMjIwMzkxNzg4MjAwODkyAAEesYqNfx0EWPDpMPSsbejWCFNxJS-vNXoDLfFVEomg1uI6AO1LxtUqEMxOF1U_aem_L-3kZX1pIGFG_mcyb9apmQ

Meet OpenMythos: An Open-Source PyTorch Reconstruction of Claude Mythos Where 770M Parameters Match a 1.3B Transformer

www.marktechpost.com

728x90

그리드형

저작자표시 비영리 변경금지 (새창열림)

'인공지능' 카테고리의 다른 글

Claude Opus 4.7 시스템 프롬프트 업데이트 핵심 정리와 의미 (0)	2026.04.21
Qwen3.6-Max-Preview 기술 프리뷰 정리: 에이전트 코딩과 지식 신뢰성을 강화한 차세대 모델 (0)	2026.04.21
크로스 데이터센터 LLM 서빙을 재설계하다: PrfaaS 기반 KVCache 아키텍처의 핵심과 의미 (0)	2026.04.20
Qwen3.6 오픈 웨이트 대규모 언어 모델 총정리: 아키텍처, 성능, 활용 방법까지 (0)	2026.04.20
GPT-5.4 mini·nano 출시로 보는 서브에이전트 시대의 AI 모델 전략 (0)	2026.04.20

평범한 직장인이 사는 세상

OpenMythos 아키텍처 분석: 7.7억 파라미터로 13억 트랜스포머급 성능을 노리는 재귀 깊이 모델의 설계

OpenMythos 프로젝트 개요

핵심 주장: Recurrent-Depth Transformer

아키텍처 구성: Prelude → Recurrent Block → Coda

MoE와 반복 깊이의 결합

연속 잠재 공간에서의 추론

안정성 문제와 해결 전략

1. 잔차 폭주 문제

2. 과도한 추론 문제

사용 방식의 개념적 예시

'인공지능' 카테고리의 다른 글

티스토리툴바

OpenMythos 아키텍처 분석: 7.7억 파라미터로 13억 트랜스포머급 성능을 노리는 재귀 깊이 모델의 설계

OpenMythos 프로젝트 개요

핵심 주장: Recurrent-Depth Transformer

아키텍처 구성: Prelude → Recurrent Block → Coda

MoE와 반복 깊이의 결합

연속 잠재 공간에서의 추론

안정성 문제와 해결 전략

1. 잔차 폭주 문제

2. 과도한 추론 문제

사용 방식의 개념적 예시

'인공지능' 카테고리의 다른 글

'인공지능' Related Articles

티스토리툴바