본문 바로가기

인공지능

PaliGemma 2: 새로운 시대를 여는 비전 언어 모델

728x90
반응형

Google이 새롭게 발표한 비전 언어 모델, PaliGemma 2를 소개합니다! PaliGemma 2는 이전 모델인 PaliGemma의 혁신을 계승하면서도 더 강력한 기능과 유연성을 제공합니다. 최신 이미지 인코더 SigLIP과 텍스트 디코더 Gemma 2를 결합한 이 모델은 비전 언어 모델의 새로운 기준을 제시합니다.

반응형

PaliGemma 2의 주요 특징

  1. 다양한 모델 크기
    • PaliGemma 2는 3B, 10B, 28B의 세 가지 모델 크기로 제공되며, 다양한 입력 해상도(224x224, 448x448, 896x896)를 지원합니다. 이는 사용 사례에 맞게 품질과 효율성 사이에서 최적의 균형을 찾을 수 있는 유연성을 제공합니다.
  2. 강화된 학습 데이터
    • PaliGemma 2는 방대한 데이터셋(WebLI, CC3M-35L, VQ2A 등)으로 사전 학습되었습니다. 이 데이터셋은 다양한 시각적 언어 이해, 객체 인식, 다국어 처리 능력을 제공합니다.
  3. 이미지 감정 및 내러티브 분석
    • 단순히 객체를 식별하는 것을 넘어 이미지 속에서 감정과 동작을 분석하고, 장면의 전반적인 서사를 파악할 수 있는 고도화된 기능을 제공합니다. Google은 PaliGemma 2가 감정 인식, 화학 공식 및 음악 악보 분석, 공간 추론, 흉부 X-레이 보고서 생성 등에서 우수한 성능을 보였다고 발표했습니다.
    • 하지만 사진 속 인물의 감정까지 읽어낼 수 있다는 점에 대해 일부 전문가들은 우려를 표했습니다. 마이크 쿡 퀸 메리 대학교 연구원은 "사람들은 복잡한 방식으로 감정을 경험하기 때문에 일반적인 경우에는 감정 감지가 불가능하다"며, "많은 기관이나 회사들이 수년에 걸쳐 시도했으나 완전한 사례는 등장하지 않았다"고 밝혔습니다. 이는 감정 분석이 여전히 연구 및 활용에 있어 신중히 접근해야 할 영역임을 시사합니다.
  4. 드롭인 대체 및 손쉬운 미세 조정
    • PaliGemma 2는 기존 모델과 쉽게 교체 가능한 드롭인 대체로 설계되었습니다. 이를 통해 별다른 코드 수정 없이 기존 모델을 즉각적으로 대체하여 성능을 향상시킬 수 있습니다.
    • 또한, 특정 작업에 맞춰 모델을 간단하게 미세 조정할 수 있어 다양한 분야에서 유연하게 활용할 수 있습니다. 이는 연구자와 개발자가 새로운 작업에 빠르게 적응하고 최적의 성능을 끌어내는 데 큰 장점을 제공합니다.
  5. 오픈 생태계 지원
    • 모델 저장소, fine-tuning 스크립트, 그리고 다양한 데모까지 제공하여 연구자와 개발자가 쉽게 접근할 수 있습니다. 또한, 상업적 활용과 모델 파생물 생성이 허용되는 Gemma 라이선스로 배포됩니다.

PaliGemma 2의 활용 사례

1. 이미지 캡셔닝

PaliGemma 2는 DOCCI 데이터셋으로 미세 조정된 모델을 통해 긴 문장, 공간적 관계, 세계적 지식을 포함한 세부적인 캡션을 생성할 수 있습니다. 예를 들어, 다음과 같은 캡션을 생성합니다:

"흰색 대리석 카운터 위에 네 개의 커피 머그컵이 있습니다. 왼쪽에는 두 개의 회색 컵이 있으며, 오른쪽에는 회색 컵 하나가 있습니다. 오른쪽 상단에는 오렌지가 담긴 과일 바구니가 있습니다."

2. 시각적 질문 답변 (VQA)

Google 팀은 PaliGemma 2를 VQAv2 데이터셋으로 미세 조정하여 시각적 질문 답변 태스크에 뛰어난 성능을 보이는 모델을 공개했습니다. 이 데모는 실제로 질문에 답변하는 과정을 보여주며, AI가 이미지와 질문을 어떻게 이해하는지 시각적으로 확인할 수 있습니다.

3. 감정 및 동작 분석

PaliGemma 2는 사진 속 인물의 감정과 동작을 분석할 수 있는 기능을 갖추고 있습니다. 이는 기존 비전 언어 모델에서 한 단계 발전한 기능으로, 감정 분석과 장면 서사 생성에 활용될 수 있습니다. 다만, 감정 분석의 한계와 윤리적 문제에 대해 지속적인 논의가 필요합니다.

4. 모델 경량화

PaliGemma 2는 양자화 기술(4-bit 및 8-bit)을 통해 더 적은 리소스를 사용하면서도 높은 성능을 유지할 수 있습니다. 이는 특히 대형 모델을 배포할 때 비용과 성능 사이의 균형을 맞추는 데 유용합니다.

사용 방법

💾 테스트를 위한 코드 예제

Hugging Face의 transformers 라이브러리와 함께 사용 가능합니다. 아래는 PaliGemma 2를 활용한 간단한 추론 코드입니다:

from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests

model_id = "google/paligemma2-10b-ft-docci-448"
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id)
model = model.to("cuda")
processor = AutoProcessor.from_pretrained(model_id)

prompt = "caption en"
image_file = "https://example.com/sample_image.png"
raw_image = Image.open(requests.get(image_file, stream=True).raw).convert("RGB")

inputs = processor(prompt, raw_image, return_tensors="pt").to("cuda")
output = model.generate(**inputs, max_new_tokens=20)

print(processor.decode(output[0], skip_special_tokens=True)[len(prompt):])
728x90

결론

PaliGemma 2는 더 강력한 성능과 유연성을 갖춘 비전 언어 모델로, 다양한 크기와 해상도를 통해 연구 및 상용화 가능성을 확장합니다. Google 팀의 이 혁신적인 릴리스는 AI 연구 커뮤니티와 산업 전반에 걸쳐 새로운 가능성을 열어줄 것입니다.

지금 바로 PaliGemma 2를 탐험해 보세요! 여러분의 창의력으로 무엇을 만들어낼 수 있을지 기대됩니다.

PaliGemma 2의 모델과 코드는 Hugging Face와 Kaggle에서 다운로드 가능하며, 다양한 활용 사례와 학습 방법이 포함된 문서를 확인할 수 있습니다.

https://huggingface.co/collections/google/paligemma-2-release-67500e1e1dbfdd4dee27ba48

 

PaliGemma 2 Release - a google Collection

Vision-Language Models available in multiple 3B, 10B and 28B variants.

huggingface.co

728x90
반응형