🤔 ARC-AGI-2, AI의 진짜 지능을 평가하는 시험 등장
최근 Arc Prize Foundation은 인공지능(AI)의 일반 지능을 평가하기 위한 새로운 시험인 ARC-AGI-2를 공개했습니다. 이 테스트는 AI가 단순한 데이터 학습이 아닌, 완전히 새로운 문제를 해결하는 능력을 평가하는 것을 목표로 합니다.
놀랍게도, 현재 가장 강력한 AI 모델조차도 이 시험에서 극히 낮은 점수를 기록하며 고전하고 있습니다. OpenAI의 o1-pro, DeepSeek의 R1 등 "추론형 AI" 모델이 **1~1.3%**의 점수를 받았고, GPT-4.5, Claude 3.7 Sonnet, Gemini 2.0 Flash 같은 강력한 비추론 AI 모델도 1% 수준에 머물렀습니다.
반면, 인간 참가자 그룹은 평균 60%의 정답률을 기록하며 AI를 압도했습니다.
그렇다면, ARC-AGI-2는 기존 AI 벤치마크와 무엇이 다를까요?
🔍 ARC-AGI-2는 어떤 시험인가?
**ARC-AGI (Abstraction and Reasoning Corpus for AGI)**는 AI의 **일반 지능(AGI)**을 평가하는 시험입니다. 기존 AI 모델들은 방대한 데이터를 학습하고 이를 바탕으로 문제를 해결하는데, ARC-AGI-2는 완전히 새로운 방식의 문제 해결 능력을 요구합니다.
이 테스트는 다양한 색상의 사각형 패턴을 기반으로 AI가 새로운 문제를 보고 스스로 규칙을 추론하여 정답을 도출해야 합니다. 핵심 목표는 **"AI가 학습하지 않은 문제를 얼마나 효율적으로 해결할 수 있는가?"**입니다.
기존 ARC-AGI-1이 AI의 단순한 패턴 학습을 평가했다면, ARC-AGI-2는 다음과 같은 요소를 도입하며 보다 진화한 평가 기준을 적용했습니다.
✅ ARC-AGI-2의 주요 특징
- 기억이 아닌 즉석 해석 능력 평가
- 기존 AI는 대량의 데이터를 바탕으로 학습했지만, ARC-AGI-2는 사전에 학습된 데이터 없이 새로운 패턴을 해석하는 능력을 테스트합니다.
- 효율성(Efficiency) 개념 도입
- 단순히 정답을 맞히는 것이 아니라, 얼마나 적은 연산 비용으로 문제를 해결할 수 있는가도 중요한 평가 요소입니다.
- OpenAI의 강력한 추론 모델인 **o3 (low)**는 ARC-AGI-1에서 **75.7%**를 기록했지만, ARC-AGI-2에서는 단 **4%**만을 기록했습니다.
- 브루트포스(Brute-force) 접근 방지
- ARC-AGI-1에서는 AI가 막대한 연산 능력을 동원하여 정답을 찾아낼 수 있었습니다.
- 하지만 ARC-AGI-2는 단순한 연산량 증가로 해결할 수 없는 문제를 제시하여 진정한 지능을 테스트합니다.
🏆 AI 연구에 미치는 영향
현재 AI 업계에서는 새로운 벤치마크의 필요성이 지속적으로 제기되고 있습니다. AI가 강력해질수록 기존 벤치마크들은 AI가 특정 유형의 문제에 과적합(overfitting)될 가능성이 높아지기 때문입니다.
특히, ARC-AGI-2의 도입은 **인공지능이 진짜 지능을 가지고 있는가?**라는 본질적인 질문을 던지고 있습니다.
Hugging Face의 공동 창업자 **토마스 울프(Thomas Wolf)**는 AI 산업에서 창의성(Creativity)을 측정할 수 있는 적절한 테스트가 부족하다고 지적했습니다. ARC-AGI-2는 이러한 문제를 해결하는 중요한 기준이 될 수 있습니다.
🎯 앞으로의 과제: Arc Prize 2025 도전
Arc Prize Foundation은 **"ARC-AGI-2에서 85% 정확도를 기록하면서도, 문제당 0.42달러 이하의 연산 비용을 유지하는 AI 모델을 만들라!"**는 Arc Prize 2025 챌린지를 발표했습니다.
이 도전이 성공한다면, 우리는 데이터 학습에 의존하지 않고 새로운 문제를 효율적으로 해결하는 AI를 보게 될 것입니다.
과연 AI가 ARC-AGI-2를 정복할 수 있을까요? 앞으로의 연구가 더욱 기대됩니다. 🚀
A new, challenging AGI test stumps most AI models | TechCrunch
The Arc Prize Foundation has a new test for AGI that leading AI models from Anthropic, Google, and DeepSeek score poorly on.
techcrunch.com
'인공지능' 카테고리의 다른 글
Playwright 기반 MCP 서버: 웹 자동화의 새로운 가능성 (0) | 2025.03.28 |
---|---|
KBLaM: 대형 언어 모델(LLM)에 외부 지식을 효율적으로 통합하는 혁신적인 접근법 (0) | 2025.03.28 |
Zapier MCP: AI와 8,000개 앱을 연결하는 새로운 자동화 솔루션 (0) | 2025.03.27 |
OpenAI Agents SDK, MCP 공식 지원! AI 모델과 도구 연결이 더 쉬워진다 (0) | 2025.03.27 |
AI 혁명: 연구 개발(R&D) 자동화보다 광범위한 자동화가 경제를 변화시킨다 (0) | 2025.03.26 |