본문 바로가기

인공지능

Google T5Gemma 2 공개: 멀티모달 입력과 128K 컨텍스트를 지원하는 인코더-디코더 모델 정리

728x90
반응형
728x170

이번 글에서는 Google이 공개한 T5Gemma 2 모델을 중심으로, 이 모델이 어떤 배경에서 등장했는지, 어떤 구조적 특징과 기술적 의미를 가지는지, 그리고 기존 Gemma 계열과 무엇이 다른지를 정리합니다.
특히 인코더-디코더 구조, 멀티모달 입력 처리 방식, 128K 장문 컨텍스트 지원, 그리고 소형 모델 효율성을 높이기 위한 설계 포인트를 중심으로 살펴봅니다. 이 글은 T5Gemma 2를 실제로 활용하거나 연구·개발 관점에서 검토하려는 독자를 대상으로 핵심 정보를 이해하기 쉽게 정리하는 것을 목표로 합니다.

반응형

T5Gemma 2 개요

T5Gemma 2는 Google이 공개한 오픈 인코더-디코더 Transformer 모델 패밀리입니다.
기존 Gemma 3 디코더 전용(pretrained) 모델 가중치를 기반으로 인코더-디코더 구조로 변환한 뒤, **UL2(Objective)**를 사용해 추가 사전학습을 진행한 것이 특징입니다.

이번 릴리스의 중요한 전제는 다음과 같습니다.

  • 사전학습(pretrained) 체크포인트만 공개
  • Instruction Tuning(IT) 또는 태스크 특화 파인튜닝 모델은 포함되지 않음
  • 개발자가 직접 후속 학습(post-training)을 수행해야 함

즉, 바로 사용 가능한 완성형 모델이 아니라, 다운스트림 태스크를 위한 기반 모델로 제공됩니다.


왜 인코더-디코더 구조인가

T5Gemma 2는 Gemma 3의 디코더 전용 구조와 달리 인코더-디코더 아키텍처를 채택합니다.

이 구조의 핵심 장점은 다음과 같습니다.

  • 인코더: 입력 전체를 양방향으로 읽으며 중요한 정보와 근거를 추출
  • 디코더: 인코더 출력을 참고해 자기회귀 방식으로 텍스트 생성에 집중

연구팀은 이 분리가 특히 긴 컨텍스트(long context) 환경에서 유리하다고 설명합니다.
대량의 입력 문서나 멀티모달 정보에서 관련 근거를 먼저 정리한 뒤, 그 위에서 출력을 생성하는 데 적합한 구조이기 때문입니다.


공개된 모델 크기와 파라미터 구성

T5Gemma 2는 총 3가지 사전학습 모델 크기로 공개되었습니다.

  • 270M–270M
  • 1B–1B
  • 4B–4B

표기 방식은 인코더와 디코더가 동일한 크기임을 의미합니다.
비전 인코더를 제외한 전체 파라미터 수는 각각 약 370M, 1.7B, 7B 수준입니다.

멀티모달 구성을 포함하면, 별도로 417M 파라미터 규모의 SigLIP 비전 인코더가 사용됩니다.


기존 Gemma 3 가중치를 활용한 적응 방식

T5Gemma 2는 처음부터 인코더-디코더 모델을 새로 학습하지 않습니다.

적응 방식은 다음과 같습니다.

  1. Gemma 3 디코더 전용 모델 가중치를 기반으로
  2. 인코더와 디코더를 모두 초기화
  3. UL2 objective로 추가 사전학습 수행
  4. 이미지 입력은 SigLIP을 통해 256개 비전 토큰으로 변환

이 접근법의 장점은 이미 검증된 사전학습 가중치를 최대한 재활용하면서, 구조적 장점을 추가할 수 있다는 점입니다.


소형 모델 효율성을 높이는 두 가지 핵심 설계

논문에서 강조되지는 않지만, 실제로는 중요한 효율 개선 요소가 두 가지 포함되어 있습니다.

1. 임베딩 공유(Tied Word Embeddings)

  • 인코더 입력 임베딩
  • 디코더 입력 임베딩
  • 디코더 출력(Softmax) 임베딩

위 세 가지를 하나의 임베딩 테이블로 공유합니다.
이 방식은 파라미터 중복을 줄이면서도 성능 저하는 거의 없다는 실험 결과를 제시합니다.

2. 디코더 병합 어텐션(Merged Attention)

기존 인코더-디코더 구조에서는 디코더에 다음 두 어텐션이 존재합니다.

  • Self-Attention
  • Cross-Attention

T5Gemma 2는 이를 하나의 어텐션 연산으로 통합합니다.
K, V는 인코더 출력과 디코더 상태를 결합해 구성하고, 마스킹을 통해 디코더의 인과성(causality)을 유지합니다.

이 설계는 다음과 같은 효과를 가집니다.

  • 파라미터 수 감소
  • 기존 Gemma 디코더 구조와의 차이 최소화
  • 초기화 안정성 향상

멀티모달 처리 방식: 인코더 중심 설계

T5Gemma 2의 멀티모달 설계는 명확합니다.

  • 이미지 이해는 전적으로 인코더에서 처리
  • SigLIP 비전 인코더는 학습 중 고정(frozen)
  • 이미지 토큰과 텍스트 토큰은 인코더에서 함께 self-attention 수행
  • 디코더는 인코더 출력을 참고해 텍스트만 생성

이로 인해 전체 파이프라인은 자연스럽게
image + text → text 형태로 구성됩니다.


128K 장문 컨텍스트를 가능하게 한 구조

T5Gemma 2의 128K 컨텍스트 지원은 Gemma 3의 구조를 그대로 상속한 결과입니다.

핵심은 로컬·글로벌 어텐션을 교차 배치한 구조입니다.

  • 5개 레이어: 로컬 슬라이딩 윈도우 어텐션 (윈도우 크기 1024)
  • 1개 레이어: 글로벌 어텐션
  • 이 패턴을 반복

이 방식은 모든 레이어를 글로벌 어텐션으로 구성하는 것보다 KV 캐시 증가를 억제해, 상대적으로 작은 모델에서도 긴 컨텍스트를 처리할 수 있게 합니다.

추가로 T5Gemma 2는 포지셔널 인터폴레이션 기법을 적용하고,
사전학습 시 최대 16K 입력·출력으로 학습한 뒤, RULER와 MRCR 벤치마크에서 최대 128K까지 평가를 진행했습니다.


학습 설정과 ‘Pretrained Only’의 의미

모델은 총 2조(2T) 토큰으로 사전학습되었으며, 주요 학습 설정은 다음과 같습니다.

  • 배치 크기: 4.2M 토큰
  • Cosine learning rate decay
  • Warmup step: 100
  • Gradient clipping: 1.0
  • 마지막 5개 체크포인트 평균화

중요한 점은, 이 모델은 Instruction Tuning이나 태스크별 최적화가 전혀 적용되지 않은 상태라는 것입니다.
따라서 실제 서비스나 연구에 사용하려면 반드시 후속 학습과 검증 과정이 필요합니다.


728x90

T5Gemma 2는 다음과 같은 의미를 가집니다.

  • Gemma 3 기반 인코더-디코더 대안 모델
  • 멀티모달 입력과 128K 장문 컨텍스트를 동시에 지원
  • 소형 모델 효율을 고려한 구조적 개선
  • 즉시 사용보다는 커스터마이징을 전제로 한 기반 모델

이 모델은 장문 문서 이해, 멀티모달 요약, 근거 기반 생성과 같은 복합 태스크에서 인코더-디코더 구조의 강점을 다시 부각시키는 사례라 볼 수 있습니다.
향후 실제 Instruction Tuning이나 태스크별 적용 사례가 등장한다면, T5Gemma 2의 실질적인 활용 가능성은 더욱 명확해질 것으로 기대됩니다.

300x250

https://www.marktechpost.com/2025/12/19/google-introduces-t5gemma-2-encoder-decoder-models-with-multimodal-inputs-via-siglip-and-128k-context/?fbclid=IwY2xjawO05DBleHRuA2FlbQIxMABicmlkETFjVkV4SmlsU1J2bzZUZmtuc3J0YwZhcHBfaWQQMjIyMDM5MTc4ODIwMDg5MgABHmG56-Ox4YdQELVaoZf_ix-Bw2pa2QQoSGkst8x_VDLj8HE2FEKIGpFz0BPB_aem_6vhSVBR9_oZggHLdE9H-4Q

 

Google Introduces T5Gemma 2: Encoder Decoder Models with Multimodal Inputs via SigLIP and 128K Context

Google AI Researchers Introduces T5Gemma 2: Encoder Decoder Models with Multimodal Inputs via SigLIP and 128K Context

www.marktechpost.com

728x90
반응형
그리드형