인공지능

🔥 멀티모달 AI의 새로운 혁신, Magma: UI 탐색부터 로봇 조작까지!

파파누보 2025. 2. 22. 17:19
728x90
반응형

🚀 Magma란?

최근 AI 기술이 언어 이해를 넘어 시각적 정보까지 통합하는 멀티모달(multimodal) AI로 발전하고 있습니다. 하지만 기존의 비전-언어(VL, Vision-Language) 모델들은 단순한 이미지-텍스트 매칭에 초점이 맞춰져 있어 실질적인 행동 계획과 실행 능력이 부족했습니다.

이를 해결하기 위해 Magma가 등장했습니다. Magma는 디지털 및 물리적 세계에서 실행 가능한 AI 에이전트를 위한 기초 모델로, 단순한 이미지-텍스트 이해를 넘어서 공간적 지능(spatial intelligence) 을 활용해 다양한 작업을 수행할 수 있습니다.

특히, UI 탐색, 로봇 조작 등 물리적 환경에서의 작업 수행이 가능하도록 설계되었으며, 새로운 학습 기법인 Set-of-Mark(SoM) 및 Trace-of-Mark(ToM) 기술을 활용하여 더 높은 수준의 공간 및 시간적 이해력을 갖추었습니다.

이번 블로그에서는 Magma의 주요 특징, 학습 방법 및 실제 활용 사례를 살펴보겠습니다.

반응형

🔎 Magma의 주요 특징

1️⃣ 기존 비전-언어 모델을 뛰어넘는 강력한 실행 능력

Magma는 기존 비전-언어 모델과 달리 단순한 이미지-텍스트 매칭이 아니라, 환경을 이해하고 실제 행동을 계획 및 실행할 수 있습니다.

Verbal Intelligence (언어 지능): 기존 VL 모델처럼 이미지-텍스트 관계를 이해하고 설명할 수 있음
Spatial Intelligence (공간 지능): UI 화면 내 클릭 가능한 버튼을 식별하고, 로봇 팔의 움직임을 분석할 수 있음
Action Execution (행동 실행): 학습된 공간 및 시간적 패턴을 바탕으로 실제 작업을 수행 가능

2️⃣ SoM(Set-of-Mark)과 ToM(Trace-of-Mark) 기술 활용

Magma는 SoM과 ToM이라는 혁신적인 기술을 도입하여 공간 및 시간적 지능을 획득합니다.

🔹 SoM(Set-of-Mark): UI 및 로봇 조작을 위한 행동 인식

SoM은 이미지 내에서 행동이 필요한 요소(예: 클릭할 버튼, 로봇 팔의 위치 등)를 마킹하는 기법입니다.
👉 예를 들어, UI 탐색에서는 버튼의 위치를, 로봇 조작에서는 물체의 위치를 마킹하여 AI가 이를 쉽게 인식하도록 합니다.

🔹 ToM(Trace-of-Mark): 행동 계획 및 예측

ToM은 비디오에서 시간적 흐름을 학습하여 AI가 미래 상태를 예측할 수 있도록 하는 기법입니다.
👉 예를 들어, 로봇 팔이 특정한 움직임을 수행할 때, 다음 단계에서 어떤 위치로 이동해야 하는지를 예측하도록 학습됩니다.

3️⃣ 대규모 멀티모달 데이터 학습

Magma는 이미지, 동영상, 로봇 데이터 등 다양한 형태의 데이터를 활용하여 학습되었습니다.
이러한 방대한 데이터 학습을 통해 Magma는 보다 정교한 시각적 이해와 실행 능력을 갖추게 됩니다.


🎯 Magma의 실제 활용 사례

UI 자동 탐색 및 조작

Magma는 UI 화면을 보고 클릭해야 할 버튼을 인식하고 자동으로 탐색할 수 있습니다.
예를 들어, 앱 테스트 자동화나 접근성 개선을 위한 UI 내비게이션에서 활용될 수 있습니다.

로봇 조작 및 자동화

로봇 팔이 물체를 집거나 특정 작업을 수행할 때, ToM 기술을 통해 다음 움직임을 예측하여 보다 자연스러운 조작이 가능합니다.
예를 들어, 물류센터에서 패키지를 분류하는 로봇이나 공장에서 조립 작업을 수행하는 로봇에 적용될 수 있습니다.

멀티모달 AI 에이전트

Magma는 단순히 시각적 데이터를 이해하는 것뿐만 아니라, 이를 기반으로 실제 행동을 수행하는 AI 에이전트 개발에도 활용될 수 있습니다.
예를 들어, 자율 주행, 스마트 로봇, 가상 비서 등 다양한 분야에서 적용 가능합니다.


728x90

📌 Magma가 가져올 AI의 미래

Magma는 기존 비전-언어 모델이 가지지 못했던 실제 행동 계획 및 실행 능력을 갖춘 새로운 멀티모달 AI 모델입니다.

🔹 SoM과 ToM을 활용한 혁신적인 학습 기법으로 공간 및 시간적 이해 능력을 확보
🔹 UI 탐색, 로봇 조작 등 다양한 실제 작업 수행 가능
🔹 멀티모달 AI 에이전트 개발에 핵심적인 역할

앞으로 Magma가 다양한 산업에서 어떻게 활용될지 기대됩니다. 특히, 자동화 및 인공지능 기반 로봇, UI 테스트, 스마트 디바이스 분야에서 혁신적인 변화를 가져올 것으로 보입니다.

https://microsoft.github.io/Magma/?fbclid=IwZXh0bgNhZW0CMTEAAR1SQkjGG58pdpgv4zyCATrwAGL_S3kdASuQRYkK9IdTeVdm0KB244dCBh8_aem_Hh8OcydQZB-3bMwWomOIYA

 

Magma: A Foundation Model for Multimodal AI Agents

We present Magma, a foundation model serving multimodal AI agentic tasks in both the digital and physical worlds. Magma is a significant extension of vision-language (VL) models in that the former not only retains the VL understanding ability (verbal intel

microsoft.github.io

 

728x90
반응형