본문 바로가기

인공지능

맥북에서도 실행 가능하다: 허깅페이스 경량 로봇 AI 모델 ‘스몰VLA’ 공개

728x90
반응형

https://huggingface.co/blog/smolvla

로봇을 학습시키는 AI 모델은 그동안 고성능 GPU나 복잡한 인프라가 필요한 영역으로 여겨졌습니다. 그러나 허깅페이스(Hugging Face)가 새롭게 발표한 ‘스몰VLA(SmolVLA)’는 이러한 장벽을 허물고 있습니다.
누구나 노트북에서도 실행할 수 있도록 설계된 경량 로봇 AI 모델인 스몰VLA는 오픈소스 데이터만으로도 기존 대형 모델 못지않은 성능을 보여주고 있습니다.

이번 글에서는 스몰VLA가 무엇인지, 어떤 기술적 특징을 갖추고 있으며, 왜 로봇공학 분야에서 중요한 의미를 가지는지 살펴보겠습니다.

반응형

스몰VLA란 무엇인가?

비전-언어-액션(VLA) 모델 개요

비전-언어-액션(Vision-Language-Action, VLA) 모델은 시각적 정보(비전)와 자연어(언어)를 기반으로 로봇이 특정 행동(액션)을 수행하도록 설계된 AI 시스템입니다.
예를 들어, "책상 위에 있는 컵을 집어주세요"라는 명령을 들으면, 로봇은 주어진 이미지를 통해 상황을 이해하고 언어 지시를 해석하여 적절한 물리적 행동을 수행합니다.

스몰VLA의 특징

허깅페이스가 공개한 스몰VLA-450M은 4억 5천만 개의 파라미터를 가진 경량 모델로, CPU, 단일 소비자용 GPU, 맥북에서도 실행이 가능합니다.
기존 대형 VLA 모델과 달리 공개 데이터셋만을 활용하여 누구나 접근할 수 있도록 오픈소스 철학으로 개발된 점이 특징입니다.

스몰VLA의 기술적 강점

비동기 추론(Asynchronous Inference)

스몰VLA는 비동기 추론 기술을 적용해 현재 로봇이 동작을 수행하는 동시에 다음 동작을 계산할 수 있습니다.
이로 인해 응답 속도는 기존보다 30% 향상되었으며, 전체 작업 처리량은 2배 증가했습니다.
실시간성이 중요한 로봇 애플리케이션에서 매우 유용한 기술적 장점입니다.

효율적인 학습 구조

스몰VLA는 총 3만 건 미만의 학습 에피소드만으로 훈련되었습니다. 이는 기존 VLA 모델 대비 약 10분의 1 수준에 불과합니다.
이처럼 적은 학습량으로도 높은 성능을 달성할 수 있었던 이유는 모델의 구조적 효율화에 있습니다.

  • 비전 모델의 절반 레이어만 사용
  • 시각 토큰 수를 64개로 제한
  • 교차 및 자기 주의 블록을 교대로 배치해 연산 최적화

이러한 설계를 통해 컴팩트한 하드웨어에서도 고성능을 유지할 수 있습니다.

성능 평가

스몰VLA는 다양한 시뮬레이션 및 실제 환경에서 우수한 성능을 입증했습니다.

  • 시뮬레이션 환경: LIBERO, Meta-World
  • 실제 환경 작업: SO100, SO101

적은 학습량에도 불구하고 스몰VLA는 기존 대형 VLA 모델들과 비교해 경쟁력 있는 성능을 보여주었습니다.

오픈소스 데이터 활용

허깅페이스는 로봇공학 분야에서 대규모 공개 데이터셋이 부족하다는 점을 지적하며, 스몰VLA 개발 과정에서 이러한 문제를 해결하고자 했습니다.
스몰VLA는 허깅페이스 허브의 'lerobot' 태그 하에 공유된 커뮤니티 데이터셋을 적극 활용했습니다.

이를 통해 연구자, 교육자, 취미 개발자 등 다양한 사용자들이 로봇 AI 모델 개발에 쉽게 참여할 수 있도록 접근성을 높였습니다.

728x90

스몰VLA는 단순한 경량 AI 모델 이상의 의미를 갖고 있습니다.

  • 누구나 쉽게 사용할 수 있는 오픈소스 로봇 AI 모델
  • 맥북이나 일반 PC에서도 실행 가능
  • 적은 학습량으로도 높은 성능 구현
  • 실시간성 강화(비동기 추론)

앞으로 로봇 AI 연구의 대중화와 개방형 협력 생태계 구축에 크게 기여할 것으로 기대됩니다.
특히 연구자는 물론 교육 현장과 취미 개발자 커뮤니티에서도 새로운 활용 사례가 활발히 등장할 전망입니다.

스몰VLA가 열어갈 새로운 로봇 AI 시대를 기대해 봅니다.

https://huggingface.co/blog/smolvla

 

SmolVLA: Efficient Vision-Language-Action Model trained on Lerobot Community Data

I'd imagine, similar to an agentic loop controlling a web browser. Observe to determine what action to take, take the action, and observe any visual changes to decide what to do next. Repeats until the goal is achieved.

huggingface.co

728x90
반응형