
무엇이 이렇게 주목받고 있을까?
최근 AI 업계에서 화제가 됐던 팀 Poetiq이 결국 공식 인증을 받아냈습니다. ARC Prize 측에서 Poetiq의 ARC-AGI-2 벤치마크 결과를 검증 완료했고, 정확도 **54%**로 그동안 넘기 힘들다고 여겨졌던 ‘마의 50% 벽’을 최초로 돌파했습니다.
여기에 더해 GPT-5.2 X-High가 같은 ARC-AGI-2에서 **무려 75%**라는 수치를 기록했다는 소식까지 나오며, 테스트 시점 추론(Test-time reasoning) 기술이 AI 추론 성능의 판을 바꾸고 있다는 평가가 나오고 있습니다.
이 글에서는
- ARC-AGI 벤치마크가 무엇인지
- Poetiq의 성과가 왜 의미 있는지
- GPT-5.2가 같은 구조에서 어떤 결과를 냈는지
를 중심으로 정리해보겠습니다.
ARC-AGI 벤치마크란 무엇인가?
ARC-AGI는 단순한 성능 측정용 벤치마크가 아닙니다.
이 벤치마크는 **AI가 ‘얼마나 인간처럼 추론할 수 있는가’**를 보기 위한 지표로 여겨져 왔습니다.
- 정답을 외우는 능력보다는
- 새로운 문제를 보고 규칙을 찾아내는 추론 능력이 핵심
- 그래서 오랫동안 50% 이상을 넘기기 어려운 기준선으로 인식됨
이 때문에 ARC-AGI에서의 성과는 단순한 숫자 이상의 의미를 가집니다.
Poetiq, 설립 173일 만에 판을 흔들다
Poetiq이 주목받는 이유는 단순히 점수 때문이 아닙니다.
ARC-AGI-2 정확도 54% 달성
- ARC Prize 측의 공식 검증 완료
- ARC-AGI-2에서 최초로 50%를 초과
비용 효율성에서의 압도적인 차이
- 문제당 비용: 약 30달러 수준
- 이는 Gemini 3 Deep Think 대비 절반 수준의 비용
- 점수는 더 높고, 비용은 더 낮은 구조
핵심은 ‘테스트 시점 추론(Test-time reasoning)’
- 대규모 모델을 새로 학습시키는 방식이 아님
- 테스트 시점에 추론을 강화하는 기술 하나로 거대 모델들을 앞섬
- 설립 173일 만에 이 성과를 냈다는 점에서 더욱 충격적
즉, Poetiq은 “모델을 더 키우는 것만이 답은 아니다”라는 메시지를 명확히 보여줬습니다.
GPT-5.2 X-High, 같은 구조에서 75%를 찍다
여기서 더 놀라운 소식이 이어집니다.
Poetiq의 하네스(Harness) 시스템으로 테스트
- 과거 Gemini에서 54%를 기록했던 동일한 하네스 시스템
- 이 구조를 그대로 사용해 GPT-5.2 X-High를 평가
결과는?
- ARC-AGI-2 정확도 75%
- 문제당 비용 8달러 미만
- 기존 Poetiq 성과보다도 더 높은 효율
특히 주목할 점
- GPT-5.2에 맞춘 별도의 최적화나 추가 학습 없음
- 즉, 모델 자체의 추론 잠재력이 그대로 드러난 결과
아직 공식 검증 절차는 남아 있지만, 수치만 놓고 보면 ARC-AGI가 상징하던 인간 추론의 장벽이 매우 빠르게 무너지고 있다는 인상을 줍니다.
왜 이 결과가 중요한가?
이번 성과가 던지는 메시지는 분명합니다.
- 모델 크기 경쟁에서 추론 방식 경쟁으로
- 학습보다 테스트 시점 추론 전략의 중요성 부각
- 고비용 대형 모델만이 해답이 아니라는 점을 증명
ARC-AGI가 오랫동안 “인간 추론의 기준선”으로 여겨졌다는 점을 생각하면, 이렇게 짧은 시간 안에 연속적인 돌파가 나왔다는 사실 자체가 상징적입니다.
이제 시선은 ARC-AGI 3으로
정리해보면,
- Poetiq은 ARC-AGI-2에서 54%, 공식 검증을 통해 50% 벽을 최초 돌파
- 테스트 시점 추론 하나로 속도, 비용, 성능을 모두 잡음
- GPT-5.2 X-High는 같은 구조에서 75%, 문제당 8달러 미만이라는 충격적인 효율을 보여줌
ARC-AGI가 더 이상 넘기 힘든 장벽이 아니라면, 다음 기준선은 어디가 될까요?
이제 자연스럽게 관심은 ARC-AGI 3로 향하고 있습니다.
AI 추론의 기준이 다시 한 번 재정의될 순간을, 우리는 바로 지금 목격하고 있는지도 모르겠습니다.

'인공지능' 카테고리의 다른 글
| 에이전트 도구를 80% 제거했더니 성능이 더 좋아진 이유 ― Vercel이 말하는 ‘파일 시스템 에이전트’의 힘 (0) | 2025.12.24 |
|---|---|
| Qwen-Image-Edit-2511 공개: 오픈소스 이미지 편집 모델의 새로운 기준 (0) | 2025.12.24 |
| 엔비디아 범용 게임 에이전트 ‘나이트로젠(NitroGen)’ 공개 - 게임을 넘어 로봇 공학까지 확장되는 체화 AI의 가능성 (0) | 2025.12.23 |
| 프롬프트 캐싱(Prompt Caching)이란 무엇인가? - LLM 응답 속도는 빨라지고 비용은 10배 줄어드는 이유 (0) | 2025.12.23 |
| 메타의 ‘SAM 오디오’란? 원하는 소리만 정확히 분리하는 차세대 AI 오디오 모델 (0) | 2025.12.23 |