magma (1) 썸네일형 리스트형 🔥 멀티모달 AI의 새로운 혁신, Magma: UI 탐색부터 로봇 조작까지! 🚀 Magma란?최근 AI 기술이 언어 이해를 넘어 시각적 정보까지 통합하는 멀티모달(multimodal) AI로 발전하고 있습니다. 하지만 기존의 비전-언어(VL, Vision-Language) 모델들은 단순한 이미지-텍스트 매칭에 초점이 맞춰져 있어 실질적인 행동 계획과 실행 능력이 부족했습니다.이를 해결하기 위해 Magma가 등장했습니다. Magma는 디지털 및 물리적 세계에서 실행 가능한 AI 에이전트를 위한 기초 모델로, 단순한 이미지-텍스트 이해를 넘어서 공간적 지능(spatial intelligence) 을 활용해 다양한 작업을 수행할 수 있습니다.특히, UI 탐색, 로봇 조작 등 물리적 환경에서의 작업 수행이 가능하도록 설계되었으며, 새로운 학습 기법인 Set-of-Mark(SoM) 및 .. 이전 1 다음