
새로운 LLM 경쟁이 치열하게 펼쳐지고 있는 2025년, Anthropic이 Opus 4.5를 공개했다. 이 모델은 SWE-Bench Verified에서 80.9%라는 성능을 기록하며 최근 등장한 GPT-5.1-Codex-Max와 Google Gemini 3를 제치고 다시 한번 코딩·생산성 중심 AI 모델의 최상위에 올랐다는 평가를 받는다.
이번 글에서는 Opus 4.5의 핵심 기술 변화, 가격 정책, 개발자 경험 개선 요소, 경쟁 모델과의 차이까지 한 번에 정리한다.
Opus 4.5 핵심 요약
Opus 4.5는 크게 세 가지 변화가 두드러진다.
첫째, SWE-Bench Verified 점수 80.9%로 코딩 성능이 경쟁 모델들을 압도했다.
둘째, API 가격을 기존 대비 약 3분의 1로 인하하며 접근성을 크게 높였다.
셋째, 문서·스프레드시트·프레젠테이션 생성 품질이 향상되며 생산성 모델로서 안정성을 확보했다.
Anthropic은 이미지나 영상 중심의 모델 경쟁보다는, 처음부터 강점이 있던 코딩·문서 중심 영역에 집중하고 있다. Opus 4.5는 이 전략의 연장선이자 완성된 형태에 가깝다.
SWE-Bench 80.9% 정확도, 성능의 실질적 의미
Opus 4.5의 SWE-Bench Verified 80.9% 성능은 단순한 숫자가 아니다.
이 벤치마크는 실제 오픈소스 프로젝트의 이슈를 해결하는 난도를 기준으로 평가한다. 즉, 모델이 단순히 코드를 생성하는 수준이 아니라 문제 해결 능력, 코드 이해력, 맥락 파악 능력이 요구된다.
Opus 4.5는 같은 테스트를 Anthropic 개발자 채용 과정에서도 활용했는데, 기존 어떤 엔지니어보다 높은 점수를 기록했다고 한다. 이는 모델이 단순한 코드 생성기를 넘어서 실제 엔지니어의 사고 과정에 근접해 있음을 보여준다.
Effort 모드: 비용과 정확도를 조절하는 새로운 방식
Opus 4.5에는 Effort 모드가 추가됐다. Low, Medium, High 세 단계로 구성되며, 개발자가 원하는 출력 품질과 처리 시간을 선택할 수 있다.
Medium 기준에서는 Sonnet 4.5와 동일한 정확도를 달성하면서도 필요한 토큰 수는 76% 적다. High로 설정하면 Sonnet 4.5보다 성능이 높아지지만 여전히 토큰 사용량은 절반 수준이다.
이는 비용 절감을 원하는 기업뿐 아니라 고정된 토큰 예산으로 다양한 테스트를 실행해야 하는 개발 환경에도 유리하다.
문서·스프레드시트·프레젠테이션 처리 능력 향상
Anthropic은 Opus 4.5가 문서, 스프레드시트, 프레젠테이션 자료를 더 높은 일관성과 완성도로 생성한다고 강조한다.
이전에는 코딩 성능이 돋보이긴 했지만 문서 생산성에서는 안정성이 부족하다는 평가가 있었다. 이번 모델은 도메인 이해와 형식 유지 능력이 강화돼 전문적인 문서를 자동 작성하는 용도로도 활용도가 높아졌다.
이는 단순한 번역·요약 모델이 아니라 기업용 생산성 모델로서의 확장성을 확보했다는 의미다.
컴퓨터 사용 능력 강화와 Chrome Extension 공개
Opus 4.5는 컴퓨터와 브라우저를 직접 조작하는 기능에서도 큰 개선이 있었다. Anthropic은 Claude Max 구독자에게 Chrome Extension을 전면 공개하며 테스트 범위를 확장하고 있다.
과거 AI의 컴퓨터 조작은 느리고 오류가 잦았지만, Opus 4.5는 이전 모델 대비 안정성이 크게 높아졌다고 한다.
이 기능은 웹 브라우저에서 발생하는 반복 작업 자동화, 자료 수집, 관리자 업무 보조 등 다양한 업무 흐름에 활용될 수 있다.
가격 인하로 더 현실적인 선택이 되다
API 가격은 입력 100만 토큰당 15달러에서 5달러로, 출력은 75달러에서 25달러로 크게 인하됐다.
이는 Opus 라인업 중 가장 높은 성능을 제공하는 모델임에도 불구하고 가격 경쟁력까지 확보했다는 점에서 의미가 있다.
Anthropic은 Sonnet 4.5 출시 이후, 성능·가격 밸런스에서 Sonnet이 오히려 더 유리하다는 평가를 받아왔다. 이번 Opus 4.5는 그 격차를 다시 뒤집고 상위 모델의 가치를 설득력 있게 보여주고 있다.
경쟁 모델과의 비교: GPT-5.1, Gemini 3
GPT-5.1과 Gemini 3는 각각 코딩 특화 모델과 멀티모달 기능 강화 모델로 시장에서 좋은 평가를 받고 있다. 그러나 Opus 4.5가 SWE-Bench 기준에서 두 모델을 앞섰다는 점은 중요한 차별점이다.
Anthropic은 이미지나 영상 생성 기능을 강화하지 않았지만, 대신 코딩·문서·자동화 등 실무 중심 영역에서 깊이 있는 성능을 확보한 전략을 유지했다. 여러 기능을 모두 가진 범용 모델 대신, 특정 작업군에서 최상위 성능을 제공하는 모델을 찾는 사용자에게 Opus 4.5는 매력적인 선택이다.
Claude Developer Platform 업데이트
Opus 4.5와 함께 개발 플랫폼도 두 가지 주요 업데이트가 있었다.
첫째, Claude Code의 Plan Mode가 개선되면서 문제 해결 계획을 더 구체적으로 세우고 그대로 이행하는 능력이 강화됐다.
둘째, Claude Desktop App에서도 Claude Code를 실행할 수 있게 되어 로컬 환경과 클라우드 환경을 병행하는 작업이 가능해졌다. 여러 개의 코드 세션을 동시에 사용할 수 있어 대규모 프로젝트나 병렬 작업에 유리하다.
Claude Opus 4.5는 성능·가격·효율·생산성 측면에서 Anthropic 모델 라인업의 균형을 다시 잡아주는 모델이다. SWE-Bench 80.9%라는 성능은 단순한 벤치마크 수치가 아니라 엔지니어 수준의 문제 해결 능력까지 포함하고 있으며, Effort 모드로 비용 제어도 가능하다.
코딩, 문서 생성, 업무 자동화 같은 실사용 중심 기능이 강화되었고 가격까지 인하되어 실제 서비스를 운영하거나 기업 내부 개발 환경에 적용할 때 부담이 크게 줄었다.
2025년은 LLM 경쟁의 한가운데지만, Opus 4.5는 이미지나 멀티모달 효과보다 실무 생산성 중심의 AI 모델을 원하는 사용자에게 가장 설득력 있는 선택지로 자리할 가능성이 크다.
Anthropic의 일관된 방향성과 기술 집중력이 앞으로 어떤 진화를 만들어낼지 주목할 만하다.
Anthropic's New Claude Opus 4.5 Reclaims the Coding Crown
In addition to the new model, Anthropic is also announcing two updates to the Claude Developer Platform that go hand-in-hand with the Opus 4.5 release.
thenewstack.io

'인공지능' 카테고리의 다른 글
| 논문 리뷰의 속도를 다시 쓰다: Agentic Reviewer 기술 완전 정리 (0) | 2025.11.26 |
|---|---|
| Mobile-Agent 기술의 진화와 핵심 구조 분석: Alibaba Tongyi Lab이 만든 차세대 GUI 멀티모달 에이전트 (0) | 2025.11.25 |
| Google Antigravity: 개발 흐름을 다시 쓰는 새로운 AI 개발 플랫폼 (0) | 2025.11.25 |
| Nano Banana Pro-상세 분석 :: 텍스트까지 정확하게 이해하는 차세대 이미지 생성 모델의 등장 (0) | 2025.11.25 |
| 초소형 에이전트의 반란, Fara-7B: 온디바이스 웹 자동화의 새로운 기준 (0) | 2025.11.25 |