
AI는 이제 글을 쓰고, 코드를 짜고, 정형화된 문제를 푸는 데까지는 상당한 수준에 도달했습니다. 하지만 아무런 설명도 없는 완전히 새로운 환경에 놓였을 때, 스스로 탐색하고 목표를 세워 문제를 해결할 수 있느냐는 질문에는 아직 명확한 답을 내놓지 못하고 있습니다.
이 질문에 정면으로 답하려는 시도가 바로 ARC-AGI-3입니다.
이 글에서는 ARC-AGI-3가 왜 등장했는지, 기존 ARC-AGI와 무엇이 다른지, 어떤 방식으로 인간과 AI의 지능 격차를 측정하는지, 그리고 왜 현재 AI 점수가 1% 미만에 머물러 있는지를 정리해봅니다.
ARC-AGI-3란 무엇인가
ARC-AGI-3는 프론티어 에이전트 인텔리전스를 연구하기 위해 설계된 대화형 지능 평가 벤치마크입니다.
기존 벤치마크와 가장 큰 차이점은 다음과 같습니다.
- 명시적인 지시가 주어지지 않음
- 정답 예시나 언어 설명 없이 환경만 제공
- 에이전트가 직접
- 탐색하고
- 목표를 추론하며
- 환경의 작동 원리를 모델링하고
- 행동 계획을 세워야 함
즉, “이 문제를 이렇게 풀어라”가 아니라
“여기 환경이 있다. 네가 무엇을 해야 하는지부터 알아내라”에 가까운 평가 방식입니다.
기존 ARC-AGI 벤치마크의 성과와 한계
ARC-AGI-1과 ARC-AGI-2의 역할
- ARC-AGI-1(2019)
- 소수의 예시만 제공되는 그리드 기반 문제
- 암기와 패턴 매칭을 최대한 배제
- 인간의 유동 지능을 측정하는 데 초점
- ARC-AGI-2(2025)
- 다단계 추론과 순차 규칙 적용
- 상징적 해석을 통한 추론 복잡도 측정
두 벤치마크 모두 인간은 100% 해결 가능하다는 점을 실제 실험을 통해 검증했습니다.
드러난 한계
최근의 대형 추론 모델은 다음과 같은 문제를 드러냈습니다.
- 학습 데이터의 밀도가 지나치게 높아짐
- 공개 벤치마크 패턴을 고차원 단축키로 우회
- 새로운 문제 해결이라기보다 “비슷한 문제를 잘 푸는 능력”에 가까워짐
이로 인해 기존 ARC-AGI는 진정한 일반화 능력을 측정하기에 점점 한계가 드러났습니다.
ARC-AGI-3의 핵심 목표
ARC-AGI-3의 목표는 명확합니다.
현재 AI와 인간 수준의 AGI 사이에 남아 있는 잔여 격차를 측정하는 것입니다.
이를 위해 ARC-AGI-3는 에이전트 지능을 네 가지 핵심 능력으로 정의합니다.
탐색
필요한 정보를 얻기 위해 능동적으로 행동하는 능력
모델링
관찰한 정보를 일반화 가능한 세계 모델로 구성하는 능력
목표 설정
명시적인 지시 없이 바람직한 미래 상태를 스스로 정의하는 능력
계획 및 실행
현재 상태에서 목표까지의 행동 경로를 설계하고, 환경 피드백에 따라 수정하는 능력
지능을 정확도가 아닌 효율성으로 평가한다
ARC-AGI-3의 가장 중요한 관점은 지능을 효율성으로 정의한다는 점입니다.
여기서 효율성이란, 새로운 환경을 처음 접했을 때 문제를 해결하는 데 필요한 행동 수를 의미합니다.
이 방식은 다음을 동시에 반영합니다.
- 무작위 대입에 대한 불이익
- 데이터와 계산 자원의 효율적 사용
- 위험을 최소화하는 탐색 전략
무엇보다 인간과 AI를 동일한 기준으로 비교할 수 있다는 점이 핵심입니다.
ARC-AGI-3 환경의 구조
관찰 공간
- 64×64 그리드
- 각 셀은 16가지 색상 중 하나
- 하나의 화면 상태를 프레임이라 정의
행동 공간
- 환경별로 정의된 5가지 핵심 동작과 Undo
- 특정 셀을 선택해 상태를 변경
- 모든 상호작용은 이산적 행동으로 구성
설계 원칙
- 턴 기반 환경
- 언어, 문화적 상징, 외부 지식 배제
- 객체성, 기본 기하학, 기본 물리, 에이전트성 등 인간의 Core Knowledge만 사용
점수는 어떻게 계산되는가: RHAE
ARC-AGI-3는 Relative Human Action Efficiency(RHAE)라는 지표를 사용합니다.
핵심 개념은 인간 기준 행동 수 대비 AI의 행동 효율성입니다.
- 최고 인간 기록이 아닌 두 번째로 좋은 인간 기록을 기준으로 사용
- 레벨별 점수를 계산해 환경 점수로 집계
- 비효율적인 풀이에 제곱 페널티 적용
- 후반 레벨에 더 높은 가중치 부여
이로 인해 우연이나 brute-force 방식으로는 의미 있는 점수를 얻기 어렵습니다.
결과가 말해주는 현실
2026년 3월 기준 결과는 매우 명확합니다.
- 인간: 모든 환경 100% 해결 가능
- 최신 AI 시스템: 1% 미만
공식 리더보드 기준 점수는 0.00%에서 0.37% 수준에 머물러 있습니다.
이는 단순한 성능 부족이 아니라,
탐색 전략, 가설 수정, 불확실성 하에서의 계획 능력이 아직 인간 수준에 도달하지 못했음을 보여줍니다.
인간 캘리브레이션이 중요한 이유
ARC-AGI-3에 포함되는 모든 환경은 다음 조건을 충족해야 합니다.
- 최소 두 명 이상의 인간이
- 사전 학습 없이
- 완전히 해결 가능
실제로 486명이 참여해 414개의 환경을 테스트했으며, 평균 해결 시간은 8.1분이었습니다.
즉, AI가 못 푸는 이유를 “문제가 너무 어렵기 때문”이라고 설명할 수 없습니다.
ARC Prize 2026과 앞으로의 방향
ARC-AGI-3는 2026년 이후 AGI 연구의 중심 벤치마크로 자리 잡게 됩니다.
특히 ARC Prize 2026은 총 200만 달러의 상금을 걸고 ARC-AGI-3 트랙에 집중합니다.
이는 명확한 메시지를 전달합니다.
이제 단순 정확도 경쟁은 끝났으며, 진짜 지능은 행동과 적응 능력으로 증명해야 한다는 것입니다.
ARC-AGI-3는 단순한 문제 풀이 벤치마크가 아닙니다.
- 정적 입력이 아닌 동적 환경
- 정답 예측이 아닌 목표 발견
- 추론뿐 아니라 탐색, 계획, 수정 능력까지 평가
현재 AI가 왜 아직 AGI가 아닌지, 그리고 어디에서 막히고 있는지를 가장 솔직하게 보여주는 지표입니다.
인간은 제한된 시간과 행동 안에서 문제를 해결합니다.
AI는 아직 그렇지 못합니다.
이 격차를 줄이는 것이 앞으로 에이전트 AI 연구의 핵심 과제가 될 것입니다.
.https://arcprize.org/arc-agi/3
ARC-AGI-3
ARC-AGI-3 is the first interactive reasoning benchmark for AI agents—play as humans and build agents that learn in novel environments.
arcprize.org

'인공지능' 카테고리의 다른 글
| AI가 과학 연구를 가속하는 방식: Anthropic 과학 블로그와 ‘AI 대학원생’ 실험이 던지는 메시지 (0) | 2026.03.26 |
|---|---|
| Ads Advisor와 Analytics Advisor로 협업하는 5가지 방법: 마케팅 의사결정을 앞당기는 에이전틱 AI 활용법 (0) | 2026.03.26 |
| KV 캐시를 이렇게까지 압축해도 성능이 유지된다면? - TurboQuant로 살펴보는 초압축 AI 기술의 핵심 (0) | 2026.03.26 |
| 장시간 실행 애플리케이션 개발을 위한 Harness 설계 이해하기 — 자율 에이전트 코딩의 성능을 끌어올리는 방법 (0) | 2026.03.25 |
| Claude Code Auto Mode 공개: 권한 승인 부담을 줄이면서 안전성을 유지하는 새로운 퍼미션 전략 (0) | 2026.03.25 |