
이번 글에서는 Google이 공개한 T5Gemma 2 모델을 중심으로, 이 모델이 어떤 배경에서 등장했는지, 어떤 구조적 특징과 기술적 의미를 가지는지, 그리고 기존 Gemma 계열과 무엇이 다른지를 정리합니다.
특히 인코더-디코더 구조, 멀티모달 입력 처리 방식, 128K 장문 컨텍스트 지원, 그리고 소형 모델 효율성을 높이기 위한 설계 포인트를 중심으로 살펴봅니다. 이 글은 T5Gemma 2를 실제로 활용하거나 연구·개발 관점에서 검토하려는 독자를 대상으로 핵심 정보를 이해하기 쉽게 정리하는 것을 목표로 합니다.
T5Gemma 2 개요
T5Gemma 2는 Google이 공개한 오픈 인코더-디코더 Transformer 모델 패밀리입니다.
기존 Gemma 3 디코더 전용(pretrained) 모델 가중치를 기반으로 인코더-디코더 구조로 변환한 뒤, **UL2(Objective)**를 사용해 추가 사전학습을 진행한 것이 특징입니다.
이번 릴리스의 중요한 전제는 다음과 같습니다.
- 사전학습(pretrained) 체크포인트만 공개
- Instruction Tuning(IT) 또는 태스크 특화 파인튜닝 모델은 포함되지 않음
- 개발자가 직접 후속 학습(post-training)을 수행해야 함
즉, 바로 사용 가능한 완성형 모델이 아니라, 다운스트림 태스크를 위한 기반 모델로 제공됩니다.
왜 인코더-디코더 구조인가
T5Gemma 2는 Gemma 3의 디코더 전용 구조와 달리 인코더-디코더 아키텍처를 채택합니다.
이 구조의 핵심 장점은 다음과 같습니다.
- 인코더: 입력 전체를 양방향으로 읽으며 중요한 정보와 근거를 추출
- 디코더: 인코더 출력을 참고해 자기회귀 방식으로 텍스트 생성에 집중
연구팀은 이 분리가 특히 긴 컨텍스트(long context) 환경에서 유리하다고 설명합니다.
대량의 입력 문서나 멀티모달 정보에서 관련 근거를 먼저 정리한 뒤, 그 위에서 출력을 생성하는 데 적합한 구조이기 때문입니다.
공개된 모델 크기와 파라미터 구성
T5Gemma 2는 총 3가지 사전학습 모델 크기로 공개되었습니다.
- 270M–270M
- 1B–1B
- 4B–4B
표기 방식은 인코더와 디코더가 동일한 크기임을 의미합니다.
비전 인코더를 제외한 전체 파라미터 수는 각각 약 370M, 1.7B, 7B 수준입니다.
멀티모달 구성을 포함하면, 별도로 417M 파라미터 규모의 SigLIP 비전 인코더가 사용됩니다.
기존 Gemma 3 가중치를 활용한 적응 방식
T5Gemma 2는 처음부터 인코더-디코더 모델을 새로 학습하지 않습니다.
적응 방식은 다음과 같습니다.
- Gemma 3 디코더 전용 모델 가중치를 기반으로
- 인코더와 디코더를 모두 초기화
- UL2 objective로 추가 사전학습 수행
- 이미지 입력은 SigLIP을 통해 256개 비전 토큰으로 변환
이 접근법의 장점은 이미 검증된 사전학습 가중치를 최대한 재활용하면서, 구조적 장점을 추가할 수 있다는 점입니다.
소형 모델 효율성을 높이는 두 가지 핵심 설계
논문에서 강조되지는 않지만, 실제로는 중요한 효율 개선 요소가 두 가지 포함되어 있습니다.
1. 임베딩 공유(Tied Word Embeddings)
- 인코더 입력 임베딩
- 디코더 입력 임베딩
- 디코더 출력(Softmax) 임베딩
위 세 가지를 하나의 임베딩 테이블로 공유합니다.
이 방식은 파라미터 중복을 줄이면서도 성능 저하는 거의 없다는 실험 결과를 제시합니다.
2. 디코더 병합 어텐션(Merged Attention)
기존 인코더-디코더 구조에서는 디코더에 다음 두 어텐션이 존재합니다.
- Self-Attention
- Cross-Attention
T5Gemma 2는 이를 하나의 어텐션 연산으로 통합합니다.
K, V는 인코더 출력과 디코더 상태를 결합해 구성하고, 마스킹을 통해 디코더의 인과성(causality)을 유지합니다.
이 설계는 다음과 같은 효과를 가집니다.
- 파라미터 수 감소
- 기존 Gemma 디코더 구조와의 차이 최소화
- 초기화 안정성 향상
멀티모달 처리 방식: 인코더 중심 설계
T5Gemma 2의 멀티모달 설계는 명확합니다.
- 이미지 이해는 전적으로 인코더에서 처리
- SigLIP 비전 인코더는 학습 중 고정(frozen)
- 이미지 토큰과 텍스트 토큰은 인코더에서 함께 self-attention 수행
- 디코더는 인코더 출력을 참고해 텍스트만 생성
이로 인해 전체 파이프라인은 자연스럽게
image + text → text 형태로 구성됩니다.
128K 장문 컨텍스트를 가능하게 한 구조
T5Gemma 2의 128K 컨텍스트 지원은 Gemma 3의 구조를 그대로 상속한 결과입니다.
핵심은 로컬·글로벌 어텐션을 교차 배치한 구조입니다.
- 5개 레이어: 로컬 슬라이딩 윈도우 어텐션 (윈도우 크기 1024)
- 1개 레이어: 글로벌 어텐션
- 이 패턴을 반복
이 방식은 모든 레이어를 글로벌 어텐션으로 구성하는 것보다 KV 캐시 증가를 억제해, 상대적으로 작은 모델에서도 긴 컨텍스트를 처리할 수 있게 합니다.
추가로 T5Gemma 2는 포지셔널 인터폴레이션 기법을 적용하고,
사전학습 시 최대 16K 입력·출력으로 학습한 뒤, RULER와 MRCR 벤치마크에서 최대 128K까지 평가를 진행했습니다.
학습 설정과 ‘Pretrained Only’의 의미
모델은 총 2조(2T) 토큰으로 사전학습되었으며, 주요 학습 설정은 다음과 같습니다.
- 배치 크기: 4.2M 토큰
- Cosine learning rate decay
- Warmup step: 100
- Gradient clipping: 1.0
- 마지막 5개 체크포인트 평균화
중요한 점은, 이 모델은 Instruction Tuning이나 태스크별 최적화가 전혀 적용되지 않은 상태라는 것입니다.
따라서 실제 서비스나 연구에 사용하려면 반드시 후속 학습과 검증 과정이 필요합니다.
T5Gemma 2는 다음과 같은 의미를 가집니다.
- Gemma 3 기반 인코더-디코더 대안 모델
- 멀티모달 입력과 128K 장문 컨텍스트를 동시에 지원
- 소형 모델 효율을 고려한 구조적 개선
- 즉시 사용보다는 커스터마이징을 전제로 한 기반 모델
이 모델은 장문 문서 이해, 멀티모달 요약, 근거 기반 생성과 같은 복합 태스크에서 인코더-디코더 구조의 강점을 다시 부각시키는 사례라 볼 수 있습니다.
향후 실제 Instruction Tuning이나 태스크별 적용 사례가 등장한다면, T5Gemma 2의 실질적인 활용 가능성은 더욱 명확해질 것으로 기대됩니다.
Google Introduces T5Gemma 2: Encoder Decoder Models with Multimodal Inputs via SigLIP and 128K Context
Google AI Researchers Introduces T5Gemma 2: Encoder Decoder Models with Multimodal Inputs via SigLIP and 128K Context
www.marktechpost.com

'인공지능' 카테고리의 다른 글
| Google DeepMind와 미국 에너지부가 함께하는 Genesis 미션: AI로 가속화되는 과학 혁신의 미래 (0) | 2025.12.22 |
|---|---|
| 하나의 CLI에서 Claude, Codex, Gemini를 전환해 사용하는 방법: cc-switch 소개 (0) | 2025.12.22 |
| 이미지 편집의 새로운 접근, Qwen-Image-Layered의 레이어드 분해 기술 이해하기 (0) | 2025.12.21 |
| Anthropic Agent Skills 공개 표준화: AI 에이전트 워크플로우의 새로운 기준 (0) | 2025.12.21 |
| CrewAI와 Gemini를 활용한 자율 멀티 에이전트 리서치·글쓰기 파이프라인 구성 방법 (0) | 2025.12.19 |