
이 글은 **LLM Architecture Gallery (2026년 3월 기준)**에 정리된 정보를 바탕으로, 대규모 언어 모델(LLM)이 지난 몇 년간 어떤 방향으로 진화해 왔는지를 정리한 글입니다. GPT-2와 같은 초기 밀집(Dense) 구조부터, 최근의 MoE(Mixture of Experts), 하이브리드, 선형·희소 어텐션 구조까지 주요 아키텍처 흐름과 특징을 중심으로 설명합니다.
모델 이름을 나열하는 데서 그치지 않고, 왜 이런 구조가 등장했는지, 각 설계가 어떤 문제를 해결하려는지를 이해하는 데 초점을 둡니다.
LLM 아키텍처 비교 갤러리란 무엇인가
LLM Architecture Gallery는 여러 비교 글에서 다룬 주요 LLM의 아키텍처 패널과 핵심 사양만을 모아둔 정리 페이지입니다.
이 자료는 다음과 같은 특징을 가집니다.
- 파라미터 수, 컨텍스트 길이, 라이선스, 디코더 구조 등 핵심 정보만 요약
- 성능 수치가 아닌 **구조적 선택(Attention, MoE, Norm 방식)**에 집중
- 연구·엔지니어 관점에서 “설계 트렌드”를 읽기 쉽게 구성
즉, “어떤 모델이 더 좋다”가 아니라 “요즘 LLM은 이렇게 만들어진다”를 이해하기 위한 자료입니다.
초기 기준점: GPT-2와 Dense Transformer 구조
초기 기준점으로 자주 언급되는 모델은 GPT-2 XL (1.5B) 입니다. 이 모델은
OpenAI가 2019년에 공개한 대표적인 Dense Transformer 구조입니다.
GPT-2 계열의 핵심 특징
- 모든 토큰이 동일한 디코더 경로를 통과하는 완전 밀집(Dense) 구조
- Multi-Head Attention(MHA) + 절대적 위치 임베딩
- 비교적 짧은 컨텍스트(1,024 토큰)
이 구조는 단순하고 안정적이지만, 모델 크기가 커질수록 연산 비용과 메모리 사용량이 급격히 증가하는 한계를 가지고 있었습니다.
Dense 모델의 진화: Llama, Qwen, OLMo 계열
GPT-2 이후에도 Dense 구조는 계속 개선되었습니다. 대표적으로 Meta의 Llama 계열과 Qwen, OLMo 모델들이 있습니다.
구조적 개선 포인트
- GQA(Grouped-Query Attention) 도입으로 KV 캐시 효율 개선
- RoPE(회전 위치 임베딩) 및 QK-Norm 적용
- 컨텍스트 길이의 대폭 확장 (8K → 128K 이상)
이러한 Dense 모델은 여전히 “모든 토큰이 모든 파라미터를 사용”하지만,
어텐션과 정규화 방식 개선을 통해 같은 자원으로 더 긴 문맥과 안정적인 학습을 가능하게 했습니다.
MoE 구조의 본격 확산: DeepSeek, Llama 4, Qwen3
최근 아키텍처 변화의 핵심은 Sparse MoE(Mixture of Experts) 입니다.
대표적인 출발점으로는 DeepSeek V3 계열이 있습니다.
MoE란 무엇인가
- 전체 파라미터 중 일부 전문가(Experts)만 토큰별로 선택해 사용
- “총 파라미터 수”는 매우 크지만,
“실제 활성 파라미터(active parameters)”는 상대적으로 작음
MoE의 장점
- 추론 비용 대비 모델 용량을 크게 확장 가능
- 초대형 모델(수백 B ~ 1T 파라미터) 설계가 현실화
DeepSeek V3, Llama 4 Maverick, Qwen3 (235B-A22B) 등은
Dense 구조로는 감당하기 어려운 규모를 MoE로 해결한 사례입니다.
MLA와 Sparse Attention: 초장문 컨텍스트를 위한 선택
MoE와 함께 등장한 또 하나의 흐름은 MLA(Multi-head Latent Attention) 와 Sparse Attention 입니다.
왜 새로운 어텐션이 필요한가
- 128K, 256K, 1M 토큰 컨텍스트에서는
기존 Full Attention의 비용이 비현실적 - 모든 토큰 간 상호작용이 꼭 필요하지 않다는 인식 확산
대표적 접근 방식
- MLA: 잠재 공간을 활용해 어텐션 비용 축소
- Sliding-Window + Global Attention 혼합
- Sparse Attention으로 장거리 토큰만 선택적 연결
이 방식은 DeepSeek V3.2, GLM-5, Kimi Linear 같은 모델에서 확인할 수 있습니다.
하이브리드 아키텍처의 등장
2025~2026년 모델들에서는 Transformer + 선형/상태공간 모델의 혼합이 본격화됩니다.
특징
- 일부 레이어만 어텐션 사용
- 나머지는 DeltaNet, Mamba 계열 구조로 대체
- 컨텍스트 길이 100만 토큰 이상도 현실적인 비용으로 처리
이는 “모든 문제를 어텐션으로 풀 필요는 없다”는 설계 철학의 결과입니다.
아키텍처 트렌드 요약
정리하면, LLM 아키텍처의 흐름은 다음과 같습니다.
- Dense → Sparse(MoE)
규모 확장을 위한 필연적 선택 - Full Attention → Sparse / Hybrid Attention
초장문 컨텍스트 대응 - 단일 정답 구조 없음
용도(추론, 코딩, 멀티모달, 온디바이스)에 따라 설계 분화
앞으로의 LLM 아키텍처를 바라보는 관점
이 갤러리가 주는 가장 중요한 시사점은,
LLM의 경쟁력이 단순한 파라미터 수가 아니라 아키텍처 설계 능력에 달려 있다는 점입니다.
앞으로는
- 어떤 Attention을 쓰는지
- MoE를 어떻게 라우팅하는지
- Dense와 Sparse를 어떻게 섞는지
이런 선택이 모델의 성격과 활용 가능성을 결정하게 될 것입니다.
LLM을 “사용하는 입장”에서도, 이런 구조적 차이를 이해하면
모델 선택과 적용에 훨씬 명확한 기준을 가질 수 있습니다.
LLM Architecture Gallery
A gallery that collects architecture figures from The Big LLM Architecture Comparison and related articles, with fact sheets and links back to the original sections.
sebastianraschka.com

'인공지능' 카테고리의 다른 글
| ClawTeam으로 구현하는 에이전트 스웜 인텔리전스: 다중 AI 에이전트 협업 자동화의 실제 (0) | 2026.03.19 |
|---|---|
| Claude Code에서 Skills를 효과적으로 사용하는 방법과 실전 인사이트 정리 (0) | 2026.03.19 |
| 내부 코딩 에이전트를 위한 오픈소스 프레임워크 Open SWE 정리 (0) | 2026.03.18 |
| MiniMax M2.7: 자기 진화를 시작한 차세대 에이전트 AI 모델의 기술적 의미와 활용 가능성 (0) | 2026.03.18 |
| Claude Cowork Dispatch 기능 정리: 모바일에서 데스크톱 Claude를 원격으로 작업시키는 방법과 한계 (0) | 2026.03.18 |