본문 바로가기

인공지능

Mobile-Agent 기술의 진화와 핵심 구조 분석: Alibaba Tongyi Lab이 만든 차세대 GUI 멀티모달 에이전트

반응형

최근 AI 에이전트 기술의 흐름을 보면, 텍스트 기반 보조 AI에서 벗어나 실제 환경에서 직접 작업을 수행하는 GUI 지능형 에이전트에 대한 요구가 빠르게 증가하고 있다.
하지만 모바일 앱, PC 소프트웨어, 웹 환경처럼 복잡한 GUI를 인식하고 조작하는 기술은 여전히 쉽지 않은 과제다. 다양한 플랫폼, 무작위 팝업, 예외 처리 등 실제 환경은 예측 불가능한 경우가 많기 때문이다.

Alibaba Tongyi Lab은 이러한 복잡한 환경에서 안정적으로 작동하는 GUI 에이전트 기술을 개발하고 있으며, 최신 버전인 Mobile-Agent-v3는 여러 생태계와 모델을 결합한 강력한 멀티모달 GUI 자동화 프레임워크로 주목받고 있다.
이 글에서는 Mobile-Agent 기술의 구조, 핵심 모델(GUI-Owl), 지원 생태계(OSWorld 등), 주요 특징과 시사점을 한 번에 이해할 수 있도록 정리한다.

반응형

Mobile-Agent란 무엇인가?

Mobile-Agent는 모바일·PC·웹 환경에서 사용자의 명령을 이해하고 직접 GUI 조작을 수행하는 멀티모달 에이전트 프레임워크다.
기존 자동화 도구처럼 특정 버튼 위치를 클릭하는 단순 매크로 방식이 아니라, 화면을 시각적으로 인식하고, 작업 계획을 스스로 세우며, 여러 단계를 나누어 실질적인 작업을 수행하는 점이 특징이다.

특히 Mobile-Agent-v3는 다음 기능을 중심으로 발전했다.

  • 멀티모달 이해 및 계획 능력
  • 모바일 앱, PC, 웹 환경을 모두 지원하는 크로스플랫폼 구조
  • 안정적인 예외 처리와 반성(reflection) 기능
  • 여러 에이전트가 협업하는 멀티에이전트 환경

즉, Mobile-Agent는 단순한 자동화 도구가 아니라 실제 사용자의 디지털 행동을 스스로 수행하는 지능형 운영 주체에 가깝다.


GUI-Owl: Mobile-Agent의 핵심 멀티모달 모델

Mobile-Agent의 중심에는 GUI-Owl이라는 멀티모달 GUI 모델이 있다. GUI-Owl은 시각 인식, 요소 그라운딩, 추론, 계획 수립, 액션 실행을 하나의 정책 네트워크 안에서 처리하는 구조를 가진다.

주요 특징은 다음과 같다.

1. 단일 정책 네트워크 기반의 엔드 투 엔드 모델

GUI 화면을 인식하고, 어떤 요소가 중요한지 파악하고, 실행 단계를 계획한 뒤 직접 조작까지 수행하는 전체 흐름을 하나의 모델이 학습해 수행한다.

2. 크로스플랫폼 GUI 처리 능력

모바일(Android), PC, 웹 등 환경을 가리지 않고 다양한 GUI 요소를 통합적으로 이해한다.

3. 멀티턴(decision-making) 의사결정

작업이 여러 단계로 이루어질 때, 화면 변화에 따라 동적으로 다음 행동을 조정한다.

4. 다양한 체크포인트

GUI-Owl은 7B와 32B 두 가지 규모로 제공되며, 용도에 따라 Mobile-Agent 내부에서 다양한 에이전트 형태로 인스턴스화된다.


Mobile-Agent-v3의 핵심 기능

Mobile-Agent-v3는 이전 버전 대비 작업 안정성과 예외 대응능력을 집중적으로 개선했다.

1. 동적 작업 분해 및 계획(Planning)

사용자의 요청을 단일 명령으로 처리하지 않고, 하위 단계로 분해한 뒤 실행 계획을 만든다.
예: 여행 정보를 검색해 정렬하고 저장하는 작업을 여러 화면에서 단계별로 실행.

2. 프로그레스 관리 및 상태 추적

작업 수행 중 어디까지 완료했는지 계속 추적하며 다음 단계를 조정한다.

3. 예외 처리 및 반성(reflection)

모바일 환경에서 자주 발생하는 팝업, 광고, 네트워크 지연 같은 예외 상황을 감지하고 스스로 해결하려고 시도한다.
문제가 발생하면 이전 단계로 돌아가거나 새 경로를 녹여내는 반성 단계가 존재한다.

4. 크로스-애플리케이션 능력

특정 정보(예: 검색한 여행지 이름)를 여러 앱에 걸쳐 전달하며 작업을 이어갈 수 있다.

이러한 기능 덕분에 실제 모바일 기기처럼 다양한 상황이 발생하는 환경에서도 적극적인 자동화가 가능하다.


Mobile-Agent 생태계: OSWorld, AndroidWorld, Real-world Scenarios

Mobile-Agent-v3는 단순 모델이 아니라 대규모 GUI 자동화 생태계를 기반으로 구축돼 있다.
Alibaba는 OSWorld, AndroidWorld, Real-world Scenarios 같은 프로젝트를 통해 실제 데이터와 다양한 환경을 모두 오픈소스로 공개했다.

OSWorld

모바일과 PC GUI 작업을 위한 대규모 훈련 데이터와 시나리오가 포함된 연구 환경이다.
Mobile-Agent 및 GUI-Owl이 이 환경을 기반으로 학습하며 실제 GUI에 근접한 행동을 익힌다.

AndroidWorld

실제 안드로이드 앱 동작을 중심으로 강화학습 기반 GUI 행동을 학습할 수 있는 환경이다.

Real-world Scenarios Code

실제 스마트폰과 웹에서 수행되는 시나리오 데이터를 제공해 실전성 높은 에이전트 훈련을 가능하게 한다.

이 생태계는 모두 오픈소스로 제공되며, 연구자·개발자가 GUI 에이전트를 트레이닝하거나 테스트하는 데 활용할 수 있다.


Mobile-Agent의 실제 활용 예

Mobile-Agent는 단순한 데모 수준이 아니라 실제로 다양한 실사용 예제를 제시하고 있다.

PC 환경 자동화

  • 새 PPT를 만들고 첫 슬라이드에 Word Art 텍스트 삽입
  • 데이터 정리, 파일 편집 등의 자동 처리

웹 환경 자동화

  • 항공권 검색, 가격 비교, 일정 선택 등 웹 기반 탐색 작업
  • 검색 조건 설정과 결과 정렬 같은 다단계 행동 수행

모바일 환경 자동화

  • 앱 실행 후 특정 콘텐츠 탐색
  • 정렬 조건 변경
  • 원하는 게시글 저장 등 사용자 수준의 조작 수행

이처럼 Mobile-Agent는 각 플랫폼에 고정되지 않고 다양한 인터페이스를 학습해 작업을 수행할 수 있다는 점에서 기존 자동화 기술과 차별화된다.


Mobile-Agent 기술 시리즈

Tongyi Lab은 Mobile-Agent와 함께 다양한 연구 성과를 공개하고 있다.

  • Mobile-Agent-v3: 크로스플랫폼 멀티모달 GUI 에이전트
  • UI-S1: GUI 자동화용 세미-온라인 강화학습 방식
  • GUI-Critic-R1: 에러 진단 및 작업 검증을 위한 GUI 비평 모델
  • PC-Agent: 멀티모달 PC 작업 자동화 모델
  • Mobile-Agent-E: 셀프 에볼빙 방식의 모바일 운영 에이전트
  • Mobile-Agent-v1 ~ v3: 버전별 GUI 자동화 기술 발전

연구 논문, 코드, 데이터셋이 대부분 공개돼 있어 학술적·실무적으로 중요한 AI 자동화 레퍼런스 역할을 한다.


728x90

Mobile-Agent는 GUI 자동화 AI의 발전을 보여주는 대표적인 사례다. 기존에는 규칙 기반 자동화나 요소 좌표에 의존한 단순 클릭 중심의 자동화가 중심이었다면, 이제는 화면을 실제로 이해하고, 의미를 파악하며, 상황에 따라 유연하게 계획을 수정하는 지능형 에이전트가 등장하고 있다.

Mobile-Agent-v3는 다음과 같은 의미를 가진다.

  • 멀티모달 모델이 실제 기기 동작 수준까지 확장되고 있다는 신호
  • 모바일 앱·PC·웹을 아우르는 통합 에이전트 기술의 실현
  • 예외 처리와 반성 기능이 포함된 실사용 가능한 자동화 단계 진입
  • GUI 기반 자동화 분야의 오픈소스 생태계 확장

앞으로 Mobile-Agent는 단순한 개인 비서 수준을 넘어, 실제 업무 자동화, 테스트 자동화, 모바일 서비스 운영 자동화 등 다양한 산업에서 활용될 가능성이 크다.
GUI를 이해하고 조작하는 AI는 이제 연구를 넘어 실전 단계로 넘어왔으며, Mobile-Agent 생태계는 그 핵심 기반으로 자리 잡고 있다.

300x250

https://github.com/X-PLUG/MobileAgent

 

GitHub - X-PLUG/MobileAgent: Mobile-Agent: The Powerful GUI Agent Family

Mobile-Agent: The Powerful GUI Agent Family. Contribute to X-PLUG/MobileAgent development by creating an account on GitHub.

github.com

728x90
반응형
그리드형