
Mercury 2는 확산 모델 기반의 병렬 생성 방식을 적용해 기존 순차 디코딩 LLM의 속도 한계를 극복한 초고속 추론 언어 모델입니다. 한 번에 여러 토큰을 생성하고 정제하는 구조를 통해 5배 이상 빠른 응답 속도를 달성했으며, 1,009토큰/초 처리 성능과 128K 컨텍스트, JSON 출력 및 도구 사용 기능까지 지원합니다.
이 글에서는 Mercury 2의 기술적 배경과 구조적 차별점, 성능 사양, 실제 프로덕션 활용 사례, 그리고 기존 인프라와의 통합 방식까지 핵심 내용을 정리합니다.
Mercury 2 개요: 프로덕션 환경을 위한 초고속 추론 모델
Mercury 2는 세계에서 가장 빠른 추론 언어 모델을 목표로 설계됐습니다. 핵심 목표는 단순한 벤치마크 수치가 아니라, 프로덕션 AI 환경에서 즉각적인 반응성을 제공하는 것입니다.
기존 LLM의 병목은 자동회귀적 순차 디코딩 구조에 있습니다. 즉, 한 번에 하나의 토큰을 생성하는 방식으로 동작합니다. 이 구조는 단일 질의에는 문제가 없을 수 있지만, 에이전트 루프처럼 다단계 호출이 반복되는 워크플로우에서는 지연이 누적되는 구조적 한계를 갖습니다.
Mercury 2는 이 지점을 근본적으로 개선합니다.
확산 기반 실시간 추론 구조: “타자기”가 아닌 “편집자”
순차 디코딩의 한계
기존 LLM은 ‘타자기’처럼 한 글자씩 순서대로 생성합니다.
이 방식은 구조적으로 직렬 처리이기 때문에 속도 향상에 물리적 제약이 존재합니다.
병렬 정제(Parallel Refinement) 방식
Mercury 2는 순차 디코딩 대신 병렬 정제 방식을 채택했습니다.
- 여러 토큰을 동시에 생성
- 소수 단계 내에서 반복적으로 정제
- 전체 초안을 다듬으며 수렴하는 구조
이는 마치 타자기가 아니라 ‘편집자’가 전체 초안을 빠르게 수정해 완성도를 높이는 방식에 가깝습니다.
이 접근 방식은 다음과 같은 결과를 만듭니다.
- 5배 이상 빠른 생성 속도
- 새로운 속도 곡선 구현
- 지연(latency) 최소화
- 비용 효율적인 고품질 추론
확산 기반 추론은 속도와 품질을 동시에 확보하는 방향으로 설계된 구조입니다.
성능 및 사양: 실시간 애플리케이션에 최적화
처리 성능
- 1,009 토큰/초 (NVIDIA Blackwell GPU 기준)
- NVIDIA 관계자는 NVIDIA AI 인프라와 결합 시 1,000토큰/초 초과 달성을 언급
비용 구조
- 입력: 100만 토큰당 $0.25
- 출력: 100만 토큰당 $0.75
주요 기능
- 128K 컨텍스트
- 조정 가능한 추론(tunable reasoning)
- JSON 스키마 정렬 출력
- 도구 사용 기능
- p95 지연 최적화
- 고동시성 환경에서 일관된 응답성
- 안정적인 처리량 유지
속도뿐 아니라, 실제 서비스 환경에서 중요한 지연 안정성과 동시성 처리 능력까지 고려된 설계입니다.
프로덕션 활용 사례
Mercury 2는 특히 지연에 민감한 환경에서 효율성을 입증했습니다.
1. 코딩 및 편집 환경
- 자동완성
- 리팩터링
- 코드 에이전트
개발자 루프 내에서 즉각적인 응답을 제공하며, Zed 공동창업자 Max Brunsfeld는 이를 “생각의 일부처럼 빠른 제안 속도”라고 강조했습니다.
코딩 환경에서는 수 초의 지연도 생산성에 직접적인 영향을 줍니다. Mercury 2는 이 반복 루프를 가속화합니다.
2. 에이전트 루프 최적화
다단계 추론 호출이 필요한 에이전트 워크플로우에서는 모델 호출 지연이 전체 시스템 속도를 결정합니다.
- Viant: 실시간 캠페인 최적화 및 자율 광고 시스템 강화
- Wispr Flow: 실시간 대화 및 전사 정제 속도 평가
- Skyvern: GPT-5.2 대비 최소 두 배 빠른 성능 언급
에이전트 구조에서는 호출 횟수가 많을수록 누적 지연이 커집니다. Mercury 2는 이 구조적 부담을 줄입니다.
3. 실시간 음성 및 상호작용
음성 인터페이스는 가장 엄격한 지연 한계를 요구합니다.
- Happyverse AI: 자연스러운 실시간 대화형 아바타 구현
- OpenCall: 낮은 지연과 높은 품질의 음성 에이전트 구축 가능성 제시
음성 대화에서는 1초의 지연도 사용자 경험을 크게 저하시킵니다. Mercury 2는 실시간 상호작용을 목표로 설계됐습니다.
4. 검색 및 RAG 파이프라인
RAG 파이프라인에서는 다음 단계들이 연쇄적으로 이어집니다.
- 다중 검색
- 재순위
- 요약
- 후처리
이 과정에서 누적 지연이 발생합니다. Mercury 2는 이 병목을 줄여 실시간 추론에 가까운 응답을 제공합니다.
SearchBlox는 Mercury 2와 협업해 실시간 검색 AI를 구현했으며, 고객지원, 리스크 관리, 전자상거래 등 다양한 분야에서 초단위 인텔리전스를 제공합니다.
배포 및 통합: OpenAI API 완전 호환
Mercury 2는 즉시 사용 가능하며 OpenAI API와 완전 호환됩니다.
- 기존 시스템 코드 수정 없이 통합 가능
- 기존 인프라 그대로 활용 가능
- 엔터프라이즈 평가 시 워크로드 적합성 및 성능 검증 지원
이는 새로운 모델 도입 시 가장 큰 장벽인 인프라 변경 부담을 제거합니다.
공식 문구는 다음과 같습니다.
“Mercury 2 is live. Welcome to diffusion.”
확산 기반 추론이 여는 실시간 AI 시대
Mercury 2는 단순히 빠른 모델이 아니라, 추론 구조 자체를 바꾼 모델입니다.
순차 디코딩에서 병렬 정제로 전환함으로써:
- 5배 이상 빠른 응답
- 1,009토큰/초 처리 속도
- 128K 컨텍스트와 JSON 정렬 출력
- 도구 사용 및 고동시성 안정성 확보
를 동시에 달성했습니다.
특히 코딩 보조, 에이전트 루프, 실시간 음성 인터페이스, RAG 파이프라인처럼 지연에 민감한 환경에서 구조적 이점을 가집니다.
AI가 점점 실시간 시스템의 일부로 통합되는 현재, 모델의 ‘지능’만큼 중요한 것은 ‘반응 속도’입니다. Mercury 2는 확산 기반 병렬 추론이라는 새로운 접근을 통해 실시간 AI 인프라의 방향성을 제시하고 있습니다.
https://www.inceptionlabs.ai/blog/introducing-mercury-2
Introducing Mercury 2 – Inception
Today, we're introducing Mercury 2 — the world's fastest reasoning language model, built to make production AI feel instant.
www.inceptionlabs.ai

'인공지능' 카테고리의 다른 글
| Nano Banana 2: Pro급 지능과 Flash 속도를 결합한 차세대 이미지 생성 모델 (0) | 2026.02.27 |
|---|---|
| 에이전트 AI 코딩, 프로그래밍 패러다임을 바꾸다 (0) | 2026.02.26 |
| Google DeepMind AlphaEvolve가 발견한 VAD-CFR·SHOR-PSRO: 직관을 넘어선 차세대 MARL 알고리즘 진화 (0) | 2026.02.26 |
| /init으로 생성한 AGENTS.md가 오히려 비용을 20% 늘리는 이유와 올바른 컨텍스트 설계 전략 (0) | 2026.02.26 |
| Claude Code Remote Control 기능 완전 정리: 로컬 세션을 모든 기기에서 이어서 사용하는 방법 (0) | 2026.02.26 |