본문 바로가기

인공지능

ARC-AGI의 50% 벽을 넘다 - Poetiq과 GPT-5.2가 보여준 테스트 시점 추론의 진짜 힘

728x90
반응형
728x170

무엇이 이렇게 주목받고 있을까?

최근 AI 업계에서 화제가 됐던 팀 Poetiq이 결국 공식 인증을 받아냈습니다. ARC Prize 측에서 Poetiq의 ARC-AGI-2 벤치마크 결과를 검증 완료했고, 정확도 **54%**로 그동안 넘기 힘들다고 여겨졌던 ‘마의 50% 벽’을 최초로 돌파했습니다.
여기에 더해 GPT-5.2 X-High가 같은 ARC-AGI-2에서 **무려 75%**라는 수치를 기록했다는 소식까지 나오며, 테스트 시점 추론(Test-time reasoning) 기술이 AI 추론 성능의 판을 바꾸고 있다는 평가가 나오고 있습니다.

이 글에서는

  • ARC-AGI 벤치마크가 무엇인지
  • Poetiq의 성과가 왜 의미 있는지
  • GPT-5.2가 같은 구조에서 어떤 결과를 냈는지
    를 중심으로 정리해보겠습니다.
반응형

ARC-AGI 벤치마크란 무엇인가?

ARC-AGI는 단순한 성능 측정용 벤치마크가 아닙니다.
이 벤치마크는 **AI가 ‘얼마나 인간처럼 추론할 수 있는가’**를 보기 위한 지표로 여겨져 왔습니다.

  • 정답을 외우는 능력보다는
  • 새로운 문제를 보고 규칙을 찾아내는 추론 능력이 핵심
  • 그래서 오랫동안 50% 이상을 넘기기 어려운 기준선으로 인식됨

이 때문에 ARC-AGI에서의 성과는 단순한 숫자 이상의 의미를 가집니다.


Poetiq, 설립 173일 만에 판을 흔들다

Poetiq이 주목받는 이유는 단순히 점수 때문이 아닙니다.

ARC-AGI-2 정확도 54% 달성

  • ARC Prize 측의 공식 검증 완료
  • ARC-AGI-2에서 최초로 50%를 초과

비용 효율성에서의 압도적인 차이

  • 문제당 비용: 약 30달러 수준
  • 이는 Gemini 3 Deep Think 대비 절반 수준의 비용
  • 점수는 더 높고, 비용은 더 낮은 구조

핵심은 ‘테스트 시점 추론(Test-time reasoning)’

  • 대규모 모델을 새로 학습시키는 방식이 아님
  • 테스트 시점에 추론을 강화하는 기술 하나로 거대 모델들을 앞섬
  • 설립 173일 만에 이 성과를 냈다는 점에서 더욱 충격적

즉, Poetiq은 “모델을 더 키우는 것만이 답은 아니다”라는 메시지를 명확히 보여줬습니다.


GPT-5.2 X-High, 같은 구조에서 75%를 찍다

여기서 더 놀라운 소식이 이어집니다.

Poetiq의 하네스(Harness) 시스템으로 테스트

  • 과거 Gemini에서 54%를 기록했던 동일한 하네스 시스템
  • 이 구조를 그대로 사용해 GPT-5.2 X-High를 평가

결과는?

  • ARC-AGI-2 정확도 75%
  • 문제당 비용 8달러 미만
  • 기존 Poetiq 성과보다도 더 높은 효율

특히 주목할 점

  • GPT-5.2에 맞춘 별도의 최적화나 추가 학습 없음
  • 즉, 모델 자체의 추론 잠재력이 그대로 드러난 결과

아직 공식 검증 절차는 남아 있지만, 수치만 놓고 보면 ARC-AGI가 상징하던 인간 추론의 장벽이 매우 빠르게 무너지고 있다는 인상을 줍니다.


왜 이 결과가 중요한가?

이번 성과가 던지는 메시지는 분명합니다.

  • 모델 크기 경쟁에서 추론 방식 경쟁으로
  • 학습보다 테스트 시점 추론 전략의 중요성 부각
  • 고비용 대형 모델만이 해답이 아니라는 점을 증명

ARC-AGI가 오랫동안 “인간 추론의 기준선”으로 여겨졌다는 점을 생각하면, 이렇게 짧은 시간 안에 연속적인 돌파가 나왔다는 사실 자체가 상징적입니다.


728x90

이제 시선은 ARC-AGI 3으로

정리해보면,

  • Poetiq은 ARC-AGI-2에서 54%, 공식 검증을 통해 50% 벽을 최초 돌파
  • 테스트 시점 추론 하나로 속도, 비용, 성능을 모두 잡음
  • GPT-5.2 X-High는 같은 구조에서 75%, 문제당 8달러 미만이라는 충격적인 효율을 보여줌

ARC-AGI가 더 이상 넘기 힘든 장벽이 아니라면, 다음 기준선은 어디가 될까요?
이제 자연스럽게 관심은 ARC-AGI 3로 향하고 있습니다.

AI 추론의 기준이 다시 한 번 재정의될 순간을, 우리는 바로 지금 목격하고 있는지도 모르겠습니다.

300x250

728x90
반응형
그리드형