최신 LLM 아키텍처 한눈에 정리: GPT-2부터 2026년 오픈웨이트 모델까지

728x90

728x170

이 글은 **LLM Architecture Gallery (2026년 3월 기준)**에 정리된 정보를 바탕으로, 대규모 언어 모델(LLM)이 지난 몇 년간 어떤 방향으로 진화해 왔는지를 정리한 글입니다. GPT-2와 같은 초기 밀집(Dense) 구조부터, 최근의 MoE(Mixture of Experts), 하이브리드, 선형·희소 어텐션 구조까지 주요 아키텍처 흐름과 특징을 중심으로 설명합니다.
모델 이름을 나열하는 데서 그치지 않고, 왜 이런 구조가 등장했는지, 각 설계가 어떤 문제를 해결하려는지를 이해하는 데 초점을 둡니다.

LLM 아키텍처 비교 갤러리란 무엇인가

LLM Architecture Gallery는 여러 비교 글에서 다룬 주요 LLM의 아키텍처 패널과 핵심 사양만을 모아둔 정리 페이지입니다.
이 자료는 다음과 같은 특징을 가집니다.

파라미터 수, 컨텍스트 길이, 라이선스, 디코더 구조 등 핵심 정보만 요약
성능 수치가 아닌 **구조적 선택(Attention, MoE, Norm 방식)**에 집중
연구·엔지니어 관점에서 “설계 트렌드”를 읽기 쉽게 구성

즉, “어떤 모델이 더 좋다”가 아니라 “요즘 LLM은 이렇게 만들어진다”를 이해하기 위한 자료입니다.

초기 기준점: GPT-2와 Dense Transformer 구조

초기 기준점으로 자주 언급되는 모델은 GPT-2 XL (1.5B) 입니다. 이 모델은
OpenAI가 2019년에 공개한 대표적인 Dense Transformer 구조입니다.

GPT-2 계열의 핵심 특징

모든 토큰이 동일한 디코더 경로를 통과하는 완전 밀집(Dense) 구조
Multi-Head Attention(MHA) + 절대적 위치 임베딩
비교적 짧은 컨텍스트(1,024 토큰)

이 구조는 단순하고 안정적이지만, 모델 크기가 커질수록 연산 비용과 메모리 사용량이 급격히 증가하는 한계를 가지고 있었습니다.

Dense 모델의 진화: Llama, Qwen, OLMo 계열

GPT-2 이후에도 Dense 구조는 계속 개선되었습니다. 대표적으로 Meta의 Llama 계열과 Qwen, OLMo 모델들이 있습니다.

구조적 개선 포인트

GQA(Grouped-Query Attention) 도입으로 KV 캐시 효율 개선
RoPE(회전 위치 임베딩) 및 QK-Norm 적용
컨텍스트 길이의 대폭 확장 (8K → 128K 이상)

이러한 Dense 모델은 여전히 “모든 토큰이 모든 파라미터를 사용”하지만,
어텐션과 정규화 방식 개선을 통해 같은 자원으로 더 긴 문맥과 안정적인 학습을 가능하게 했습니다.

MoE 구조의 본격 확산: DeepSeek, Llama 4, Qwen3

최근 아키텍처 변화의 핵심은 Sparse MoE(Mixture of Experts) 입니다.
대표적인 출발점으로는 DeepSeek V3 계열이 있습니다.

MoE란 무엇인가

전체 파라미터 중 일부 전문가(Experts)만 토큰별로 선택해 사용
“총 파라미터 수”는 매우 크지만,
“실제 활성 파라미터(active parameters)”는 상대적으로 작음

MoE의 장점

추론 비용 대비 모델 용량을 크게 확장 가능
초대형 모델(수백 B ~ 1T 파라미터) 설계가 현실화

DeepSeek V3, Llama 4 Maverick, Qwen3 (235B-A22B) 등은
Dense 구조로는 감당하기 어려운 규모를 MoE로 해결한 사례입니다.

MLA와 Sparse Attention: 초장문 컨텍스트를 위한 선택

MoE와 함께 등장한 또 하나의 흐름은 MLA(Multi-head Latent Attention) 와 Sparse Attention 입니다.

왜 새로운 어텐션이 필요한가

128K, 256K, 1M 토큰 컨텍스트에서는
기존 Full Attention의 비용이 비현실적
모든 토큰 간 상호작용이 꼭 필요하지 않다는 인식 확산

대표적 접근 방식

MLA: 잠재 공간을 활용해 어텐션 비용 축소
Sliding-Window + Global Attention 혼합
Sparse Attention으로 장거리 토큰만 선택적 연결

이 방식은 DeepSeek V3.2, GLM-5, Kimi Linear 같은 모델에서 확인할 수 있습니다.

하이브리드 아키텍처의 등장

2025~2026년 모델들에서는 Transformer + 선형/상태공간 모델의 혼합이 본격화됩니다.

특징

일부 레이어만 어텐션 사용
나머지는 DeltaNet, Mamba 계열 구조로 대체
컨텍스트 길이 100만 토큰 이상도 현실적인 비용으로 처리

이는 “모든 문제를 어텐션으로 풀 필요는 없다”는 설계 철학의 결과입니다.

아키텍처 트렌드 요약

정리하면, LLM 아키텍처의 흐름은 다음과 같습니다.

Dense → Sparse(MoE)
규모 확장을 위한 필연적 선택
Full Attention → Sparse / Hybrid Attention
초장문 컨텍스트 대응
단일 정답 구조 없음
용도(추론, 코딩, 멀티모달, 온디바이스)에 따라 설계 분화

728x90

앞으로의 LLM 아키텍처를 바라보는 관점

이 갤러리가 주는 가장 중요한 시사점은,
LLM의 경쟁력이 단순한 파라미터 수가 아니라 아키텍처 설계 능력에 달려 있다는 점입니다.

앞으로는

어떤 Attention을 쓰는지
MoE를 어떻게 라우팅하는지
Dense와 Sparse를 어떻게 섞는지

이런 선택이 모델의 성격과 활용 가능성을 결정하게 될 것입니다.
LLM을 “사용하는 입장”에서도, 이런 구조적 차이를 이해하면
모델 선택과 적용에 훨씬 명확한 기준을 가질 수 있습니다.

300x250

https://sebastianraschka.com/llm-architecture-gallery/?fbclid=IwY2xjawQoh_ZleHRuA2FlbQIxMABicmlkETFld0lLTjBpRnNPa2FyOTFXc3J0YwZhcHBfaWQQMjIyMDM5MTc4ODIwMDg5MgABHklKaD096a7J_pDVkbstkDVlZD_ApnvV876DQO1u-mwnwpXAJj83Rc3FsI2G_aem_cQgxe7oMA3MRDWv62VXaFg

LLM Architecture Gallery

A gallery that collects architecture figures from The Big LLM Architecture Comparison and related articles, with fact sheets and links back to the original sections.

sebastianraschka.com

728x90

그리드형

저작자표시 비영리 변경금지 (새창열림)

'인공지능' 카테고리의 다른 글

ClawTeam으로 구현하는 에이전트 스웜 인텔리전스: 다중 AI 에이전트 협업 자동화의 실제 (0)	2026.03.19
Claude Code에서 Skills를 효과적으로 사용하는 방법과 실전 인사이트 정리 (0)	2026.03.19
내부 코딩 에이전트를 위한 오픈소스 프레임워크 Open SWE 정리 (0)	2026.03.18
MiniMax M2.7: 자기 진화를 시작한 차세대 에이전트 AI 모델의 기술적 의미와 활용 가능성 (0)	2026.03.18
Claude Cowork Dispatch 기능 정리: 모바일에서 데스크톱 Claude를 원격으로 작업시키는 방법과 한계 (0)	2026.03.18

평범한 직장인이 사는 세상

최신 LLM 아키텍처 한눈에 정리: GPT-2부터 2026년 오픈웨이트 모델까지

LLM 아키텍처 비교 갤러리란 무엇인가

초기 기준점: GPT-2와 Dense Transformer 구조

GPT-2 계열의 핵심 특징

Dense 모델의 진화: Llama, Qwen, OLMo 계열

구조적 개선 포인트

MoE 구조의 본격 확산: DeepSeek, Llama 4, Qwen3

MoE란 무엇인가

MoE의 장점

MLA와 Sparse Attention: 초장문 컨텍스트를 위한 선택

왜 새로운 어텐션이 필요한가

대표적 접근 방식

하이브리드 아키텍처의 등장

특징

아키텍처 트렌드 요약

앞으로의 LLM 아키텍처를 바라보는 관점

'인공지능' 카테고리의 다른 글

티스토리툴바

최신 LLM 아키텍처 한눈에 정리: GPT-2부터 2026년 오픈웨이트 모델까지

LLM 아키텍처 비교 갤러리란 무엇인가

초기 기준점: GPT-2와 Dense Transformer 구조

GPT-2 계열의 핵심 특징

Dense 모델의 진화: Llama, Qwen, OLMo 계열

구조적 개선 포인트

MoE 구조의 본격 확산: DeepSeek, Llama 4, Qwen3

MoE란 무엇인가

MoE의 장점

MLA와 Sparse Attention: 초장문 컨텍스트를 위한 선택

왜 새로운 어텐션이 필요한가

대표적 접근 방식

하이브리드 아키텍처의 등장

특징

아키텍처 트렌드 요약

앞으로의 LLM 아키텍처를 바라보는 관점

'인공지능' 카테고리의 다른 글

'인공지능' Related Articles

티스토리툴바