
ARC-AGI-2란 무엇인가
ARC-AGI 벤치마크는 프랑수아 숄레가 2019년에 제안한 Abstract Reasoning Corpus(ARC)를 기반으로 한다. 이 벤치마크는 단순한 데이터 암기나 패턴 학습이 아닌, **핵심 추론 능력(core knowledge priors)**과 일반화 능력을 평가하기 위해 설계되었다.
ARC-AGI-2는 2025년 3월에 업데이트된 버전으로, 다음과 같은 특징을 갖는다:
- 단순한 시각 격자 퍼즐 기반 문제 제공
- 몇 개의 입출력 예시만을 보고 규칙을 스스로 발견해야 함
- 1,000개의 학습 과제로 구성
- 상징적 해석, 조합적 추론 등 고난도 개념 테스트
- 기존 모델들의 brute-force 접근을 무력화하도록 설계
2025년 초반의 주요 AI 모델들은 ARC-AGI-2에서 5% 미만의 정확도를 기록했을 정도로 난도가 높다. 인간에게는 비교적 쉬운 패턴도 AI에게는 여전히 해결하기 어려운 이유가 여기에 있다.
Poetiq이 기록을 깬 이유: Refinement(리파인먼트)라는 새로운 접근
Poetiq의 가장 큰 차별점은 기존의 Chain-of-Thought(CoT) 방식에서 벗어나, 스스로 문제 해결 과정을 반복 개선하는 리파인먼트 루프(Refinement Loop) 아키텍처를 도입한 것이다.
리파인먼트 루프의 핵심 개념
Poetiq 시스템은 단순히 답변을 생성하는 데서 끝나지 않는다.
- 첫 번째 해답 생성
- 자체 피드백 분석
- 해결 과정 재조정
- 개선된 해답 생성
- 충분하다고 판단될 때 자동 종료(Self-Auditing)
즉, 스스로 만든 답을 스스로 검토하고 다시 수정하는 구조다.
이 과정 덕분에 Poetiq 시스템은 문제당 평균 두 번도 채 되지 않는 요청으로 정답을 도출한다.
비용 혁신
Poetiq는 정확도뿐 아니라 비용에서도 큰 성과를 보였다:
- Poetiq: 문제당 30.57달러
- 기존 최고 성능 모델 Gemini 3 Deep Think: 문제당 77.16달러
정확도는 54%로 기존 최고 기록인 45%를 넘어섰으며, 비용은 절반 이하로 절감됐다.
이는 단순 모델 크기 확장이 아닌 시스템 설계의 최적화가 추론 성능을 결정한다는 점을 보여준다.
모델에 구애받지 않는 메타 시스템
Poetiq의 시스템은 특정 모델에 종속적이지 않다. 이를 통해 Poetiq은 다양한 모델을 쉽게 통합해 최적 조합을 구성할 수 있다.
- Gemini 3
- GPT-5.1
- Anthropic 모델
- xAI 모델 등
예를 들어, Grok-4-Fast 기반 구성에서는 훨씬 저렴한 비용으로 고성능을 얻었으며, ‘Poetiq (GPT-OSS-b)’ 구성에서는 문제당 1센트 미만의 비용으로도 안정적인 성능을 보여주었다.
즉, Poetiq는 모델 자체를 튜닝하지 않아도, 여러 모델의 조합과 반복 추론 설계를 통해 고성능을 달성하는 메타 프레임워크다.
2025년, 리파인먼트 루프의 해
ARC Prize 팀은 2025년을 “리파인먼트 루프의 해”라고 정의했다. 대규모 언어 모델의 성능 향상은 여전히 중요하지만, 실제 문제 해결 능력은 이제 출력 검증과 반복 개선을 병행하는 애플리케이션 레이어에서 결정되고 있다.
Poetiq는 오픈소스 리파인먼트 기술을 통해 Gemini 3 Pro의 성능을 31%에서 54%로 끌어올렸다. 이는 새로운 모델을 학습하지 않고도 시스템 설계만으로 추론 능력을 크게 향상할 수 있음을 증명한다.
앞으로 기대되는 확장 방향
Poetiq는 이번 성과를 기반으로 다음과 같은 영역까지 리파인먼트 루프 기술을 확장할 계획이다:
- 장기 추론 문제 해결
- 지식 기반 문제에서의 세계 지식 활용
- 모델 업데이트 없이 추론 능력 향상
- 복잡한 데이터 검색 및 해석 작업 개선
LLM 친화적인 방식으로 지식 추출 구조를 개선할 경우, 모델 자체를 다시 학습시키지 않고도 높은 난도의 reasoning·retrieval 작업을 해결할 수 있는 가능성이 열리고 있다.
AI 추론 기술의 새로운 패러다임
Poetiq의 ARC-AGI-2 최고 기록은 단순히 점수 경쟁에서 앞섰다는 의미를 넘어선다. 이번 성과는 다음과 같은 시사점을 가진다:
- 추론 능력 향상은 이제 모델 크기가 아니라 시스템 설계에서 결정된다
- 반복 개선 구조인 리파인먼트 루프는 앞으로의 AI 발전 방향을 이끌 핵심 기술
- 다양한 모델 조합을 통합하는 메타 시스템 접근은 비용과 성능의 새로운 균형점을 제시
- 복잡한 문제 해결을 위해 모델 자체를 다시 학습시키지 않아도 되는 시대가 도래
앞으로 Poetiq의 기술이 실제 산업 문제, 지식 탐색, 장기 계획 수립 같은 영역으로 확장된다면, AI의 활용 가능성은 지금보다 훨씬 넓어질 것이다. 이번 ARC-AGI-2 성과는 그 출발점이라 볼 수 있다.
Beyond raw intelligence: How Poetiq cracked the ARC-AGI-2 benchmark - TechTalks
The verified solution achieves 54% accuracy on the semi-private test set, outperforming Gemini 3 Deep Think at less than half the cost.
bdtechtalks.com

'인공지능' 카테고리의 다른 글
| 트랜스포머 제1 저자가 만든 8B 오픈 소스 모델 Rnj-1, 왜 주목해야 하는가 (0) | 2025.12.11 |
|---|---|
| AlphaEvolve: LLM 기반 알고리즘 설계의 전환점 (0) | 2025.12.11 |
| Manus의 Context Engineering: 에이전트 성능을 결정짓는 핵심 기술 (0) | 2025.12.10 |
| Devstral 2와 Mistral Vibe CLI로 완성하는 차세대 코드 자동화 (0) | 2025.12.10 |
| One MCP: 여러 MCP 서비스를 한곳에서 관리하는 중앙 관리 플랫폼 (0) | 2025.12.09 |