본문 바로가기

인공지능

오픈AGI ‘럭스(Lux)’ AI 에이전트 기술 분석: 컴퓨터 사용 AI의 새로운 기준

728x90
반응형
728x170

 

이번 글에서는 AI 스타트업 오픈AGI가 공개한 컴퓨터 사용 AI 에이전트 **‘럭스(Lux)’**에 대해 정리합니다. 럭스는 오픈AI와 앤트로픽의 컴퓨터 제어 AI보다 높은 성능과 낮은 비용을 동시에 달성하며 업계의 주목을 받고 있습니다.
이 글에서는 럭스의 등장 배경, 핵심 기술 개념, 성능 지표, 기존 AI 에이전트와의 차별점, 그리고 향후 기대되는 활용 가능성까지 입력된 정보를 기반으로 차분하게 살펴봅니다.

반응형

컴퓨터 사용 AI 에이전트란 무엇인가

컴퓨터 사용 AI 에이전트는 사람처럼 화면을 보고, 클릭하고, 입력하고, 프로그램을 조작하는 AI를 의미합니다.
단순히 텍스트를 생성하는 것이 아니라 실제 컴퓨터 환경에서 웹사이트나 애플리케이션을 직접 다루며 업무를 수행하는 것이 목표입니다.

그동안 오픈AI의 ‘오퍼레이터(Operator)’나 앤트로픽의 ‘컴퓨터 유즈(Computer Use)’가 이 분야를 대표해 왔지만, 높은 비용과 제한적인 범위가 한계로 지적돼 왔습니다.


오픈AGI와 ‘럭스(Lux)’의 등장 배경

오픈AGI는 MIT 출신 젱이 친 대표가 이끄는 AI 스타트업입니다.
이들이 공개한 **럭스(Lux)**는 컴퓨터 제어에 특화된 AI 모델로, 기존 경쟁 모델보다 낮은 비용과 높은 작업 성공률을 동시에 달성한 것이 핵심 특징입니다.

럭스는 단순한 데모 수준이 아니라, 실제 업무 환경을 반영한 벤치마크에서 성능을 입증하며 주목받고 있습니다.


온라인-마인드투웹 벤치마크 성능 분석

럭스의 성능을 보여주는 대표적인 지표는 온라인-마인드투웹(Online-Mind2Web) 벤치마크입니다.

이 벤치마크는

  • 실제 136개 웹사이트
  • 300개의 실사용 업무
  • 페이지 구조 변경 및 예기치 못한 상황 포함

이라는 조건으로 설계된, 매우 현실적인 평가 기준입니다.

벤치마크 결과 비교

  • 럭스(Lux): 83.6%
  • 구글 제미나이 CUA: 69.0%
  • 오픈AI: 61.3%
  • 앤트로픽: 56.3%

럭스는 경쟁 모델 대비 큰 격차로 가장 높은 성공률을 기록했습니다. 이는 단순한 테스트 환경이 아닌 실제 사용 상황에서도 강점을 가질 가능성을 보여줍니다.


럭스의 핵심 기술: 행동을 학습하는 모델

럭스의 가장 큰 차별점은 **‘행동(action)을 학습하는 모델’**이라는 점입니다.

기존 대규모 언어 모델(LLM)은 주로 텍스트 예측 중심으로 학습됩니다. 반면 럭스는

  • 스크린샷
  • 행동 시퀀스(클릭, 입력, 이동 등)

를 함께 학습합니다. 즉, 화면을 이해하고 실제로 어떤 행동을 해야 하는지를 중심으로 학습하는 구조입니다.

이로 인해 럭스는 단순 지시 이해를 넘어, 실제 컴퓨터 조작을 자연스럽게 수행할 수 있습니다.


에이전트 능동 사전 훈련 방식

럭스에는 에이전트 능동 사전 훈련(Agentic Active Pre-training) 방식이 적용됐습니다.

이 방식의 핵심은 다음과 같습니다.

  • AI가 스스로 탐색하며 새로운 데이터를 생성
  • 생성된 데이터를 다시 학습에 반영
  • 탐색과 학습이 반복되며 성능이 강화되는 구조

친 대표는 이를 “더 나은 모델이 더 나은 탐색을 만들고, 그 탐색이 다시 더 나은 지식을 생성하는 자기 강화 구조”라고 설명했습니다.


웹을 넘어 데스크톱까지 확장된 제어 범위

대부분의 상용 AI 에이전트는 웹 브라우저 중심으로 작동합니다.
그러나 럭스는 다음과 같은 네이티브 데스크톱 애플리케이션까지 조작할 수 있다고 밝혔습니다.

  • 엑셀
  • 슬랙
  • 어도비 도구
  • 개발용 IDE

이를 가능하게 하기 위해 럭스 기반 앱 개발용 SDK도 함께 공개됐습니다. 이는 기업이나 개발자가 럭스를 업무 환경에 직접 통합할 수 있는 기반을 제공합니다.


비용 효율성과 온디바이스 전략

오픈AGI는 럭스가 오픈AI나 앤트로픽의 제품 대비 약 10분의 1 수준의 비용으로 동작한다고 설명했습니다.

또한 인텔과 협력해 온디바이스 실행 최적화를 추진 중이며, AMD와 마이크로소프트와의 파트너십도 논의하고 있습니다.
이는 스크린 데이터를 외부 클라우드로 보내지 않아도 되기 때문에, 기업 보안 문제를 해결할 수 있는 중요한 포인트로 평가됩니다.


컴퓨터 제어 AI의 안전 정책

컴퓨터를 직접 조작하는 AI의 특성상 보안과 안전 문제는 매우 중요합니다.
럭스에는 내부 안전 정책이 반영돼 있으며, 민감한 요청은 자동으로 차단됩니다.

예를 들어 사용자가
“내 은행 정보 복사해서 문서에 붙여 넣어줘”
와 같은 요청을 하면, 럭스는 이를 안전 위반으로 판단해 작업을 거부하고 경고 메시지를 출력합니다.


728x90

럭스는

  • 행동 중심 학습
  • 현실적인 벤치마크에서의 높은 성능
  • 웹을 넘어 데스크톱까지 확장된 제어 범위
  • 낮은 비용과 온디바이스 실행 가능성

이라는 요소를 통해 기존 컴퓨터 사용 AI 에이전트와 분명한 차별점을 보여주고 있습니다.

물론 실제 복잡한 현장 환경에서도 벤치마크 수준의 성능을 유지할 수 있을지는 지켜봐야 할 부분입니다. 이는 모든 AI 에이전트가 공통적으로 안고 있는 과제이기도 합니다.

그럼에도 불구하고 럭스의 등장은 컴퓨터 제어 AI가 단순 실험 단계를 넘어 실제 업무 자동화 영역으로 확장되고 있음을 보여주는 신호로 볼 수 있습니다. 앞으로 기업 환경과 개인 업무에서 어떤 변화가 일어날지 주목할 만한 시점입니다.

300x250

https://www.agiopen.org/

 

Lux - The World’s Best Foundation Computer-Use Model

Lux is the world’s best foundation computer-use model, achieving an 83.6 score on Online-Mind2Web — outperforming OpenAI Operator, Anthropic Claude Sonnet 4, and Google Gemini CUA. Built by researchers from MIT, CMU, and UIUC, Lux executes actions in 1

lux.agiopen.org

728x90
반응형
그리드형