본문 바로가기

인공지능

윈도우 자동화의 미래를 여는 UFO²: 데스크탑 AgentOS의 탄생

728x90
반응형

https://github.com/microsoft/UFO?fbclid=IwY2xjawKChmBleHRuA2FlbQIxMQBicmlkETEwVDNIaXBFV1c0eEhrNVpsAR5r9po6jN79jif6daKJwHhCWt7-14LFoYSxJB1McIM4k9iX_SKUa1ZVj9StYA_aem_nmAjftCSmRvSFsotPdfFPQ

자연어로 윈도우를 제어하는 시대가 열렸다

복잡한 윈도우 작업을 하나하나 손으로 처리하던 시대는 지났다. 이제 당신이 해야 할 일은 단순히 "엑셀 열고 요약 데이터 복사해줘"라고 말하는 것뿐이다. 마이크로소프트가 공개한 오픈소스 프로젝트 UFO²는 자연어로 윈도우 애플리케이션을 자동 제어할 수 있도록 돕는 데스크탑 에이전트 시스템이다.

기존의 매크로나 UI 자동화 도구들과 달리 UFO²는 멀티에이전트 프레임워크, 하이브리드 GUI+API 제어, 지속 학습이 가능한 지식 서브스트레이트, 그리고 샌드박스 방식의 가상 데스크탑 실행 등을 결합하여 훨씬 정교하고 신뢰성 높은 윈도우 자동화를 가능하게 한다.

이 블로그에서는 UFO²의 주요 개념과 구조, 특징, 설치 방법까지 전반적으로 살펴보며, 왜 이것이 ‘차세대 윈도우 자동화 도구’로 주목받는지 분석해본다.

반응형

UFO²란 무엇인가?

UFO²는 마이크로소프트에서 개발한 오픈소스 프로젝트로, 윈도우 환경에서 자연어 명령을 이해하고 여러 애플리케이션을 넘나들며 자동화 작업을 수행하는 데스크탑용 AgentOS다.

기존 UFO 프로젝트의 진화된 형태로, 단순한 UI 자동화 수준을 넘어 복잡한 멀티 애플리케이션 워크플로우도 자동으로 처리할 수 있도록 설계되어 있다.

UFO²는 단일한 AI 에이전트가 아닌, 역할이 나뉘어진 다수의 에이전트들이 협업하는 구조를 가지고 있다.


핵심 구성 요소

1. HostAgent

  • 사용자의 자연어 요청을 해석해 전체 작업 흐름을 기획하고, 필요한 AppAgent들을 호출한다.
  • 상태 머신(FSM)을 기반으로 전체 에이전트 동작을 관리한다.

2. AppAgent

  • 각각의 애플리케이션을 제어하는 에이전트.
  • GUI 인식과 API 호출을 혼합한 방식으로 애플리케이션을 제어.
  • 자체적인 ReAct 루프를 통해 시각적 요소와 지식 기반 정보를 통합 처리.

3. Speculative Executor

  • 여러 작업 단계를 예측하고 동시에 처리해 LLM 호출 수를 최대 51%까지 줄이는 방식.
  • 실시간 UI 상태와 비교하여 작업을 검증함으로써 오류를 줄인다.

4. Knowledge Substrate

  • 사용 설명서, 온라인 검색 결과, 사용자 데모, 과거 실행 기록 등 다양한 정보를 하나의 지식 저장소로 통합.
  • 에이전트가 실행 중 필요한 정보를 실시간으로 검색해 활용.

5. Picture-in-Picture Desktop (예정 기능)

  • 에이전트를 별도의 가상 데스크탑에서 실행해 사용자의 실제 작업 환경을 방해하지 않도록 구성.

UFO²의 주요 특징

하이브리드 제어 방식

  • Win32, Windows UI Automation(UIA), COM 인터페이스를 혼합하여 네이티브 제어를 최우선으로 시도.
  • 불가능할 경우 클릭/키보드 방식으로 자동 전환해 최대한의 신뢰성과 유연성을 보장.

샌드박스 환경 실행

  • 자동화 작업을 메인 데스크탑이 아닌 별도의 가상 공간에서 수행.
  • 사용자 입력 및 작업을 방해하지 않으며, 보안 및 안정성 측면에서 뛰어남.

지속 가능한 학습 기반

  • 에이전트는 단순히 명령을 실행하는 것이 아니라, 사용자 행동을 기록하고 학습하여 점점 더 정확하고 빠르게 반응할 수 있음.
  • Retrieval-Augmented Generation(RAG)을 통해 문서 검색, 검색 엔진, 사용자 데모 등을 결합.

UFO²를 왜 주목해야 하는가?

기존 RPA나 매크로 도구들은 복잡한 환경에서는 쉽게 깨지거나 유지보수가 어렵다. 반면, UFO²는 다음과 같은 장점을 제공한다.

  • 다양한 애플리케이션 간 협업 작업 가능
  • 명령 하나로 여러 단계를 자동 처리
  • 변화하는 UI에도 강인한 적응력
  • 사용자 입력 없이 자동화 백그라운드 실행 가능
  • 지속 학습 기반으로 사용할수록 더 똑똑해짐

728x90

에이전트 중심의 윈도우 자동화, 지금이 시작점이다

UFO²는 단순한 자동화 도구가 아니다. 이는 윈도우 운영체제에서 AI 에이전트들이 스스로 판단하고 협업하며 일하는 환경, 즉 AgentOS 시대의 출발점이다. 명령어 한 줄로 문서 정리, 브라우저 검색, 이메일 작성까지 자동으로 처리되는 세상이 머지않았다.

지금은 개발자와 기술 애호가 중심이지만, 앞으로는 누구나 손쉽게 일상의 반복 업무를 UFO²로 자동화하게 될 것이다. 당신의 윈도우를 진정한 스마트 에이전트 환경으로 바꿀 준비가 되었는가?

https://github.com/microsoft/UFO?fbclid=IwY2xjawKChmBleHRuA2FlbQIxMQBicmlkETEwVDNIaXBFV1c0eEhrNVpsAR5r9po6jN79jif6daKJwHhCWt7-14LFoYSxJB1McIM4k9iX_SKUa1ZVj9StYA_aem_nmAjftCSmRvSFsotPdfFPQ

 

GitHub - microsoft/UFO: The Desktop AgentOS.

The Desktop AgentOS. Contribute to microsoft/UFO development by creating an account on GitHub.

github.com

728x90
반응형