본문 바로가기

google

(7)
PaliGemma 2 mix: 하나의 모델로 이미지 이해부터 텍스트 분석까지! 1. 최신 비전-언어 모델의 등장이미지와 텍스트를 동시에 이해하는 AI 모델은 이제 다양한 산업에서 필수적인 기술이 되었습니다. Google이 최근 발표한 PaliGemma 2 mix는 이러한 흐름을 반영한 강력한 비전-언어 모델로, 이미지 캡셔닝(Captioning), 광학 문자 인식(OCR), 객체 탐지(Object Detection) 등 다양한 태스크를 단일 모델로 수행할 수 있습니다.특히, 3B, 10B, 28B 세 가지 크기의 모델과 다양한 해상도(224px, 448px)를 지원해, 사용자 필요에 맞게 최적의 모델을 선택할 수 있다는 점이 강점입니다. 또한, PyTorch, TensorFlow, JAX, Hugging Face Transformers 등 다양한 프레임워크와 호환되어 개발자 친화적..
Gemini 2.0 공개! 최신 AI 모델 업데이트 및 특징 정리 🔍 Gemini 2.0이란?Google이 새롭게 발표한 Gemini 2.0 시리즈는 다양한 AI 활용을 위한 최신 모델로, 빠른 속도와 높은 성능을 자랑합니다. 이번 업데이트에서는 Gemini 2.0 Flash, Gemini 2.0 Pro Experimental, 그리고 새로운 Flash-Lite 모델이 공개되었습니다.Gemini 2.0 모델들은 개발자들에게 최적화된 성능을 제공하며, 대규모 데이터 처리, 멀티모달 입력(텍스트, 이미지, 오디오 등) 지원, 코드 생성 및 복잡한 문제 해결 능력을 대폭 향상시켰습니다.🚀 Gemini 2.0의 핵심 업데이트🔹 1. Gemini 2.0 Flash – 빠르고 강력한 AI 모델특징:✅ 고속 처리와 저지연(latency) 성능 최적화✅ 100만 토큰(conte..
Titans: 트랜스포머 아키텍처를 대체할 새로운 패러다임 트랜스포머는 지난 몇 년간 언어 모델링과 시퀀스 모델링의 표준으로 자리 잡았지만, 긴 문맥 처리의 한계와 메모리 및 속도 문제는 해결되지 않은 과제였습니다. 구글 리서치팀이 최근 발표한 Titans 모델은 이러한 한계를 극복하며 새로운 가능성을 열고 있습니다. Titans는 Memory as a Context(MAC) 아키텍처를 통해 2M 토큰 이상의 긴 문맥 처리를 가능하게 하며, 언어 모델링, 유전체학, 시계열 분석 등 다양한 분야에서 혁신적인 결과를 보여주고 있습니다. 이 블로그에서는 Titans의 개념, 작동 원리, 그리고 기존 트랜스포머 모델과의 차별점에 대해 알아보겠습니다.1. Titans 모델이란 무엇인가?1-1. Titans의 핵심 개념Titans는 트랜스포머의 한계를 극복하기 위해 설계된..
AI가 만들어가는 새로운 쇼핑 경험: 구글의 최신 AI와 그 혁신 AI 기술이 빠르게 발전하며 리테일 업계에도 큰 변화를 가져오고 있습니다. 구글은 이번 National Retail Federation(NRF) '25 행사에서 리테일러들이 AI 시대의 요구에 맞춰 운영 효율을 높이고 개인화된 쇼핑 경험을 제공할 수 있도록 돕는 새로운 AI 툴을 발표했습니다. 이 블로그에서는 구글의 AI 솔루션이 리테일 업계에 어떤 혁신을 가져오는지, 그리고 실제 사례를 통해 AI가 비즈니스에 어떤 가치를 제공할 수 있는지 알아보겠습니다.1. AI가 리테일 업계에 미치는 영향리테일 업계의 도전 과제와 AI의 역할리테일 업계는 변화에 익숙하지만, AI 기술의 급격한 발전은 업계 전반에 새로운 기회와 도전 과제를 제시하고 있습니다. 구글은 AI를 통해 다음과 같은 리테일 업계의 주요 문제를..
테스트-타임 컴퓨트: AI 모델 성능 한계를 돌파하는 혁신적 접근법 AI 기술이 빠르게 발전하면서도, 대형 언어 모델(LLM)의 데이터 고갈 문제는 지속적으로 도전 과제가 되고 있습니다. 이에 대한 해결책으로 등장한 것이 바로 ‘테스트-타임 컴퓨트(Test-Time Compute)’ 기술입니다. 이 혁신적인 접근법은 AI 모델이 단계적으로 문제를 해결하는 방식을 채택해, 더 정교한 출력과 뛰어난 성능을 제공합니다. 특히, 오픈AI의 'o1' 모델을 활용한 사례는 지식 증류(distillation)와 합성 데이터 생성에 있어 새로운 가능성을 열어주었습니다.이 블로그에서는 테스트-타임 컴퓨트의 작동 원리, 장점, 그리고 이를 통해 AI 모델의 미래가 어떻게 변화할지 알아보겠습니다.1. 테스트-타임 컴퓨트란 무엇인가?테스트-타임 컴퓨트는 AI가 쿼리를 단계별로 나누고, 각 단..
구글의 새로운 도전: 물리적 세계를 시뮬레이션하는 '월드 모델(LWM)' 개발 구글이 물리적 세계를 시뮬레이션할 수 있는 AI 기술, '월드 모델(LWM)' 개발을 위해 새로운 팀을 구성했다는 소식이 전해졌습니다. 이를 위해 구글은 업계 최고의 인재들과 기존 기술을 통합해 가장 강력한 LWM을 만들겠다는 의지를 보이고 있습니다. 이 블로그에서는 월드 모델의 개념, 개발 배경, 기술적 특징 및 기대 효과에 대해 자세히 알아봅니다.1. 월드 모델(LWM)이란?월드 모델(LWM, Large World Model)은 물리적 세계의 구조, 동작, 그리고 규칙을 학습하여 이를 바탕으로 상황을 예측하거나 새로운 환경을 생성하는 AI 시스템입니다.작동 원리: 인간이 세상에 대한 경험을 통해 머릿속에서 세상을 이해하고 미래를 예측하는 방식과 유사합니다.핵심 기술: 실제와 유사한 환경을 컴퓨터 프로..
PaliGemma 2: 새로운 시대를 여는 비전 언어 모델 Google이 새롭게 발표한 비전 언어 모델, PaliGemma 2를 소개합니다! PaliGemma 2는 이전 모델인 PaliGemma의 혁신을 계승하면서도 더 강력한 기능과 유연성을 제공합니다. 최신 이미지 인코더 SigLIP과 텍스트 디코더 Gemma 2를 결합한 이 모델은 비전 언어 모델의 새로운 기준을 제시합니다.PaliGemma 2의 주요 특징다양한 모델 크기PaliGemma 2는 3B, 10B, 28B의 세 가지 모델 크기로 제공되며, 다양한 입력 해상도(224x224, 448x448, 896x896)를 지원합니다. 이는 사용 사례에 맞게 품질과 효율성 사이에서 최적의 균형을 찾을 수 있는 유연성을 제공합니다.강화된 학습 데이터PaliGemma 2는 방대한 데이터셋(WebLI, CC3M-35L..