본문 바로가기

인공지능

최신 LLM 아키텍처 한눈에 정리: GPT-2부터 2026년 오픈웨이트 모델까지

728x90
반응형
728x170

이 글은 **LLM Architecture Gallery (2026년 3월 기준)**에 정리된 정보를 바탕으로, 대규모 언어 모델(LLM)이 지난 몇 년간 어떤 방향으로 진화해 왔는지를 정리한 글입니다. GPT-2와 같은 초기 밀집(Dense) 구조부터, 최근의 MoE(Mixture of Experts), 하이브리드, 선형·희소 어텐션 구조까지 주요 아키텍처 흐름과 특징을 중심으로 설명합니다.
모델 이름을 나열하는 데서 그치지 않고, 왜 이런 구조가 등장했는지, 각 설계가 어떤 문제를 해결하려는지를 이해하는 데 초점을 둡니다.

반응형

LLM 아키텍처 비교 갤러리란 무엇인가

LLM Architecture Gallery는 여러 비교 글에서 다룬 주요 LLM의 아키텍처 패널과 핵심 사양만을 모아둔 정리 페이지입니다.
이 자료는 다음과 같은 특징을 가집니다.

  • 파라미터 수, 컨텍스트 길이, 라이선스, 디코더 구조 등 핵심 정보만 요약
  • 성능 수치가 아닌 **구조적 선택(Attention, MoE, Norm 방식)**에 집중
  • 연구·엔지니어 관점에서 “설계 트렌드”를 읽기 쉽게 구성

즉, “어떤 모델이 더 좋다”가 아니라 “요즘 LLM은 이렇게 만들어진다”를 이해하기 위한 자료입니다.


초기 기준점: GPT-2와 Dense Transformer 구조

초기 기준점으로 자주 언급되는 모델은 GPT-2 XL (1.5B) 입니다. 이 모델은
OpenAI가 2019년에 공개한 대표적인 Dense Transformer 구조입니다.

GPT-2 계열의 핵심 특징

  • 모든 토큰이 동일한 디코더 경로를 통과하는 완전 밀집(Dense) 구조
  • Multi-Head Attention(MHA) + 절대적 위치 임베딩
  • 비교적 짧은 컨텍스트(1,024 토큰)

이 구조는 단순하고 안정적이지만, 모델 크기가 커질수록 연산 비용과 메모리 사용량이 급격히 증가하는 한계를 가지고 있었습니다.


Dense 모델의 진화: Llama, Qwen, OLMo 계열

GPT-2 이후에도 Dense 구조는 계속 개선되었습니다. 대표적으로 Meta의 Llama 계열과 Qwen, OLMo 모델들이 있습니다.

구조적 개선 포인트

  • GQA(Grouped-Query Attention) 도입으로 KV 캐시 효율 개선
  • RoPE(회전 위치 임베딩) 및 QK-Norm 적용
  • 컨텍스트 길이의 대폭 확장 (8K → 128K 이상)

이러한 Dense 모델은 여전히 “모든 토큰이 모든 파라미터를 사용”하지만,
어텐션과 정규화 방식 개선을 통해 같은 자원으로 더 긴 문맥과 안정적인 학습을 가능하게 했습니다.


MoE 구조의 본격 확산: DeepSeek, Llama 4, Qwen3

최근 아키텍처 변화의 핵심은 Sparse MoE(Mixture of Experts) 입니다.
대표적인 출발점으로는 DeepSeek V3 계열이 있습니다.

MoE란 무엇인가

  • 전체 파라미터 중 일부 전문가(Experts)만 토큰별로 선택해 사용
  • “총 파라미터 수”는 매우 크지만,
    “실제 활성 파라미터(active parameters)”는 상대적으로 작음

MoE의 장점

  • 추론 비용 대비 모델 용량을 크게 확장 가능
  • 초대형 모델(수백 B ~ 1T 파라미터) 설계가 현실화

DeepSeek V3, Llama 4 Maverick, Qwen3 (235B-A22B) 등은
Dense 구조로는 감당하기 어려운 규모를 MoE로 해결한 사례입니다.


MLA와 Sparse Attention: 초장문 컨텍스트를 위한 선택

MoE와 함께 등장한 또 하나의 흐름은 MLA(Multi-head Latent Attention)Sparse Attention 입니다.

왜 새로운 어텐션이 필요한가

  • 128K, 256K, 1M 토큰 컨텍스트에서는
    기존 Full Attention의 비용이 비현실적
  • 모든 토큰 간 상호작용이 꼭 필요하지 않다는 인식 확산

대표적 접근 방식

  • MLA: 잠재 공간을 활용해 어텐션 비용 축소
  • Sliding-Window + Global Attention 혼합
  • Sparse Attention으로 장거리 토큰만 선택적 연결

이 방식은 DeepSeek V3.2, GLM-5, Kimi Linear 같은 모델에서 확인할 수 있습니다.


하이브리드 아키텍처의 등장

2025~2026년 모델들에서는 Transformer + 선형/상태공간 모델의 혼합이 본격화됩니다.

특징

  • 일부 레이어만 어텐션 사용
  • 나머지는 DeltaNet, Mamba 계열 구조로 대체
  • 컨텍스트 길이 100만 토큰 이상도 현실적인 비용으로 처리

이는 “모든 문제를 어텐션으로 풀 필요는 없다”는 설계 철학의 결과입니다.


아키텍처 트렌드 요약

정리하면, LLM 아키텍처의 흐름은 다음과 같습니다.

  1. Dense → Sparse(MoE)
    규모 확장을 위한 필연적 선택
  2. Full Attention → Sparse / Hybrid Attention
    초장문 컨텍스트 대응
  3. 단일 정답 구조 없음
    용도(추론, 코딩, 멀티모달, 온디바이스)에 따라 설계 분화

728x90

앞으로의 LLM 아키텍처를 바라보는 관점

이 갤러리가 주는 가장 중요한 시사점은,
LLM의 경쟁력이 단순한 파라미터 수가 아니라 아키텍처 설계 능력에 달려 있다는 점입니다.

앞으로는

  • 어떤 Attention을 쓰는지
  • MoE를 어떻게 라우팅하는지
  • Dense와 Sparse를 어떻게 섞는지

이런 선택이 모델의 성격과 활용 가능성을 결정하게 될 것입니다.
LLM을 “사용하는 입장”에서도, 이런 구조적 차이를 이해하면
모델 선택과 적용에 훨씬 명확한 기준을 가질 수 있습니다.

300x250

https://sebastianraschka.com/llm-architecture-gallery/?fbclid=IwY2xjawQoh_ZleHRuA2FlbQIxMABicmlkETFld0lLTjBpRnNPa2FyOTFXc3J0YwZhcHBfaWQQMjIyMDM5MTc4ODIwMDg5MgABHklKaD096a7J_pDVkbstkDVlZD_ApnvV876DQO1u-mwnwpXAJj83Rc3FsI2G_aem_cQgxe7oMA3MRDWv62VXaFg

 

LLM Architecture Gallery

A gallery that collects architecture figures from The Big LLM Architecture Comparison and related articles, with fact sheets and links back to the original sections.

sebastianraschka.com

728x90
반응형
그리드형