새로운 AGI 테스트 ARC-AGI-2, 대부분의 AI 모델을 좌절시키다

728x90

🤔 ARC-AGI-2, AI의 진짜 지능을 평가하는 시험 등장

최근 Arc Prize Foundation은 인공지능(AI)의 일반 지능을 평가하기 위한 새로운 시험인 ARC-AGI-2를 공개했습니다. 이 테스트는 AI가 단순한 데이터 학습이 아닌, 완전히 새로운 문제를 해결하는 능력을 평가하는 것을 목표로 합니다.

놀랍게도, 현재 가장 강력한 AI 모델조차도 이 시험에서 극히 낮은 점수를 기록하며 고전하고 있습니다. OpenAI의 o1-pro, DeepSeek의 R1 등 "추론형 AI" 모델이 **1~1.3%**의 점수를 받았고, GPT-4.5, Claude 3.7 Sonnet, Gemini 2.0 Flash 같은 강력한 비추론 AI 모델도 1% 수준에 머물렀습니다.

반면, 인간 참가자 그룹은 평균 60%의 정답률을 기록하며 AI를 압도했습니다.

그렇다면, ARC-AGI-2는 기존 AI 벤치마크와 무엇이 다를까요?

🔍 ARC-AGI-2는 어떤 시험인가?

**ARC-AGI (Abstraction and Reasoning Corpus for AGI)**는 AI의 **일반 지능(AGI)**을 평가하는 시험입니다. 기존 AI 모델들은 방대한 데이터를 학습하고 이를 바탕으로 문제를 해결하는데, ARC-AGI-2는 완전히 새로운 방식의 문제 해결 능력을 요구합니다.

이 테스트는 다양한 색상의 사각형 패턴을 기반으로 AI가 새로운 문제를 보고 스스로 규칙을 추론하여 정답을 도출해야 합니다. 핵심 목표는 **"AI가 학습하지 않은 문제를 얼마나 효율적으로 해결할 수 있는가?"**입니다.

기존 ARC-AGI-1이 AI의 단순한 패턴 학습을 평가했다면, ARC-AGI-2는 다음과 같은 요소를 도입하며 보다 진화한 평가 기준을 적용했습니다.

✅ ARC-AGI-2의 주요 특징

기억이 아닌 즉석 해석 능력 평가
- 기존 AI는 대량의 데이터를 바탕으로 학습했지만, ARC-AGI-2는 사전에 학습된 데이터 없이 새로운 패턴을 해석하는 능력을 테스트합니다.
효율성(Efficiency) 개념 도입
- 단순히 정답을 맞히는 것이 아니라, 얼마나 적은 연산 비용으로 문제를 해결할 수 있는가도 중요한 평가 요소입니다.
- OpenAI의 강력한 추론 모델인 **o3 (low)**는 ARC-AGI-1에서 **75.7%**를 기록했지만, ARC-AGI-2에서는 단 **4%**만을 기록했습니다.
브루트포스(Brute-force) 접근 방지
- ARC-AGI-1에서는 AI가 막대한 연산 능력을 동원하여 정답을 찾아낼 수 있었습니다.
- 하지만 ARC-AGI-2는 단순한 연산량 증가로 해결할 수 없는 문제를 제시하여 진정한 지능을 테스트합니다.

🏆 AI 연구에 미치는 영향

현재 AI 업계에서는 새로운 벤치마크의 필요성이 지속적으로 제기되고 있습니다. AI가 강력해질수록 기존 벤치마크들은 AI가 특정 유형의 문제에 과적합(overfitting)될 가능성이 높아지기 때문입니다.

특히, ARC-AGI-2의 도입은 **인공지능이 진짜 지능을 가지고 있는가?**라는 본질적인 질문을 던지고 있습니다.

Hugging Face의 공동 창업자 **토마스 울프(Thomas Wolf)**는 AI 산업에서 창의성(Creativity)을 측정할 수 있는 적절한 테스트가 부족하다고 지적했습니다. ARC-AGI-2는 이러한 문제를 해결하는 중요한 기준이 될 수 있습니다.

728x90

🎯 앞으로의 과제: Arc Prize 2025 도전

Arc Prize Foundation은 **"ARC-AGI-2에서 85% 정확도를 기록하면서도, 문제당 0.42달러 이하의 연산 비용을 유지하는 AI 모델을 만들라!"**는 Arc Prize 2025 챌린지를 발표했습니다.

이 도전이 성공한다면, 우리는 데이터 학습에 의존하지 않고 새로운 문제를 효율적으로 해결하는 AI를 보게 될 것입니다.

과연 AI가 ARC-AGI-2를 정복할 수 있을까요? 앞으로의 연구가 더욱 기대됩니다. 🚀

https://techcrunch.com/2025/03/24/a-new-challenging-agi-test-stumps-most-ai-models/?fbclid=IwZXh0bgNhZW0CMTEAAR0OLtRgKVQFM3w7WiK_oNY0t9jD-JWuKprYxZlwCIhElmkyjIbKcxUti8U_aem_8C8X_v5KwSYHFxG1ZgxLDw

A new, challenging AGI test stumps most AI models | TechCrunch

The Arc Prize Foundation has a new test for AGI that leading AI models from Anthropic, Google, and DeepSeek score poorly on.

techcrunch.com

728x90

저작자표시 비영리 변경금지

'인공지능' 카테고리의 다른 글

Playwright 기반 MCP 서버: 웹 자동화의 새로운 가능성 (0)	2025.03.28
KBLaM: 대형 언어 모델(LLM)에 외부 지식을 효율적으로 통합하는 혁신적인 접근법 (0)	2025.03.28
Zapier MCP: AI와 8,000개 앱을 연결하는 새로운 자동화 솔루션 (0)	2025.03.27
OpenAI Agents SDK, MCP 공식 지원! AI 모델과 도구 연결이 더 쉬워진다 (0)	2025.03.27
AI 혁명: 연구 개발(R&D) 자동화보다 광범위한 자동화가 경제를 변화시킨다 (0)	2025.03.26

평범한 직장인이 사는 세상

새로운 AGI 테스트 ARC-AGI-2, 대부분의 AI 모델을 좌절시키다

🤔 ARC-AGI-2, AI의 진짜 지능을 평가하는 시험 등장

🔍 ARC-AGI-2는 어떤 시험인가?

✅ ARC-AGI-2의 주요 특징

🏆 AI 연구에 미치는 영향

🎯 앞으로의 과제: Arc Prize 2025 도전

'인공지능' 카테고리의 다른 글

티스토리툴바

새로운 AGI 테스트 ARC-AGI-2, 대부분의 AI 모델을 좌절시키다

🤔 ARC-AGI-2, AI의 진짜 지능을 평가하는 시험 등장

🔍 ARC-AGI-2는 어떤 시험인가?

✅ ARC-AGI-2의 주요 특징

🏆 AI 연구에 미치는 영향

🎯 앞으로의 과제: Arc Prize 2025 도전

'인공지능' 카테고리의 다른 글

'인공지능' Related Articles

티스토리툴바