본문 바로가기

인공지능

MiniMax M3: 1M 컨텍스트와 에이전트 시대를 여는 프론티어 AI 모델

728x90
반응형
728x170

이번 글에서는 2026년 6월 공식 공개된 MiniMax M3를 중심으로, 이 모델이 어떤 배경에서 등장했으며 어떤 기술적 특징과 의미를 가지는지 정리합니다. 특히 1M 토큰 초장문 컨텍스트, 새로운 희소 어텐션 구조(MSA), 코딩 및 에이전트 작업에서의 성능, 그리고 네이티브 멀티모달이라는 핵심 포인트를 중심으로 살펴봅니다. 또한 MiniMax M3를 실제로 활용할 수 있는 MiniMax Code, 토큰 플랜, API까지 함께 소개합니다.

반응형

프론티어 모델로서의 MiniMax M3 개요

MiniMax M3는 코딩과 에이전트 작업에 특화된 프론티어급 성능을 목표로 설계된 대규모 언어 모델입니다. 가장 큰 특징은 다음 세 가지입니다.

  • 최대 1M 토큰의 초장문 컨텍스트 지원
  • 이미지와 비디오를 기본적으로 이해하는 네이티브 멀티모달 모델
  • 데스크톱 환경까지 다룰 수 있는 에이전트 실행 능력

이 세 가지는 이제 클로즈드 프론티어 모델에서는 필수 조건으로 여겨지지만, MiniMax M3는 오픈 웨이트 모델 중 최초로 이 모든 요소를 동시에 제공합니다. 이 점에서 기술적, 생태계적 의미가 큽니다.

이 모델은 MiniMax가 직접 설계·학습했으며, 향후 모델 가중치도 오픈소스로 공개될 예정입니다.


MSA: 1M 컨텍스트를 가능하게 한 핵심 구조

MiniMax M3의 가장 근본적인 기술 혁신은 MSA(MiniMax Sparse Attention) 입니다.

기존의 풀 어텐션 구조는 시퀀스 길이가 늘어날수록 계산량이 제곱 단위로 증가하는 구조적 한계를 가지고 있습니다. 이는 에이전트 작업이나 대규모 코드베이스, 논문 전체를 다루는 작업에서 치명적인 병목이 됩니다.

MSA는 이러한 문제를 해결하기 위해 다음과 같은 접근을 취합니다.

  • KV(Key-Value)를 정밀하게 블록 단위로 분할하는 희소 어텐션 구조
  • 불필요한 연산을 사전에 제거해 효과적인 컨텍스트 커버리지를 극대화
  • 연산자 수준에서 KV outer gather Q 방식을 적용해 메모리 접근을 최적화

그 결과, 컨텍스트 길이 1M 기준으로 토큰당 연산량이 이전 세대 대비 1/20 수준으로 감소했습니다. 실제 성능에서도 프리필 단계는 9배 이상, 디코딩 단계는 15배 이상의 속도 향상을 달성했습니다. 중요한 점은, 이러한 최적화에도 불구하고 대부분의 능력에서 풀 어텐션과 동등한 성능을 유지했다는 점입니다.


코딩과 에이전트 성능: 벤치마크를 넘어 실제 협업으로

MiniMax M3는 단순한 코드 생성 모델이 아니라, 장시간 협업하는 에이전트를 목표로 설계되었습니다. 주요 성능 지표는 다음과 같습니다.

  • SWE-Bench Pro: 59.0%
  • Terminal-Bench 2.1: 66.0%
  • MCP Atlas: 74.2%
  • Claw-Eval: 최고 점수 달성

이 수치 자체도 인상적이지만, 더 중요한 점은 학습과 평가 방식의 변화입니다. 기존 코딩 벤치마크는 단발성 요청을 가정하지만, 실제 개발 환경은 요구사항 수정, 피드백 반영, 맥락 전환이 반복됩니다.

이를 반영하기 위해 MiniMax는 인터랙티브 사용자 시뮬레이터 프레임워크를 구축했습니다. 이 환경에서 M3는 다음과 같은 행동을 학습합니다.

  • 요구사항 구체화 및 재정의
  • 해결책 토론과 수정
  • 중간 결과 기반 반복 개선
  • 복잡한 프로젝트 단위의 장기 계획

이로 인해 M3는 단순 지시 수행자가 아니라, 개발자와 함께 문제를 풀어가는 협업 파트너에 가까운 행동을 보입니다.


네이티브 멀티모달: 처음부터 함께 학습된 모델

MiniMax M3는 학습 초기 단계부터 텍스트, 이미지, 기타 모달리티를 혼합한 상태로 학습되었습니다. 이 접근은 단순히 입력을 추가한 수준이 아니라, 서로 다른 모달리티의 의미 공간이 자연스럽게 결합되도록 설계되었습니다.

특히 주목할 점은 인터리브(interleaved) 데이터의 중요성입니다. 텍스트와 이미지, 또는 영상이 하나의 시퀀스 안에서 자연스럽게 섞여 있는 데이터가 모델 성능 향상에 결정적인 역할을 했습니다. 이를 위해 전체 데이터 파이프라인을 재구성했고, 학습 데이터 규모는 100조 토큰 수준까지 확장되었습니다.


실제 작업에서 검증된 M3의 에이전트 능력

논문 완전 재현 작업

MiniMax M3는 ICLR 2025 수상 논문을 입력받아, 약 12시간 동안 자율적으로 실행하며 논문 재현을 완료했습니다. 이 과정에서:

  • 18개의 커밋
  • 23개의 실험 결과 그래프
  • 핵심 실험의 재현과 검증

을 모두 스스로 수행했습니다. 멀티모달 이해, 초장문 컨텍스트, 장기 에이전트 실행이 동시에 요구되는 작업이었으며, M3는 이를 단일 스레드로 완주했습니다.

CUDA 커널 최적화

NVIDIA Hopper 아키텍처에서 FP8 GEMM 커널을 최적화하는 작업에서도 M3는 인상적인 결과를 보였습니다. 약 24시간 동안 147회의 벤치마크 제출과 1,900회 이상의 도구 호출을 통해, 하드웨어 활용률을 7.6%에서 71.3%까지 끌어올리는 9.4배 성능 향상을 달성했습니다.

이 과정은 단순 코드 생성이 아니라, 성능 병목 분석, 반복 실험, 장기 탐색이 결합된 전형적인 에이전트 작업이었습니다.


MiniMax Code와 토큰 플랜, API 활용

MiniMax M3에 최적화된 에이전트 제품인 MiniMax Code는 장기 복합 작업을 다루기 위해 멀티 에이전트 팀 구조를 제공합니다. 작업을 단계별로 분해하고, 생산자와 검증자 구조를 통해 스스로 오류를 수정하며 며칠간 자율 실행도 가능합니다.

또한 MiniMax Token Plan을 통해 개인 개발자부터 팀 단위 사용자까지 비교적 높은 토큰 한도로 M3를 활용할 수 있으며, API에서는:

  • 512K 이하 입력에 대한 기본 요금
  • 초장문 입력을 위한 별도 장문 요금
  • reasoning(think) 모드 온·오프 지원
  • SLA가 필요한 환경을 위한 priority 서비스

를 제공합니다.


728x90

MiniMax M3는 단순히 성능이 높은 언어 모델이 아닙니다.
이 모델은 초장문 컨텍스트, 에이전트 협업, 멀티모달 이해가 결합된 다음 세대 AI의 방향을 명확히 보여줍니다.

특히 오픈 웨이트 모델로서 프론티어 모델의 필수 조건을 모두 충족했다는 점은, 연구자와 개발자 생태계 전반에 큰 영향을 줄 수 있습니다. 앞으로 공개될 기술 보고서와 모델 가중치가, 실제 현업과 연구 현장에서 어떤 변화를 만들어낼지 주목할 만합니다.

MiniMax M3는 이제 단순한 도구를 넘어, 함께 일하는 AI라는 개념을 현실적인 수준으로 끌어올린 사례라고 볼 수 있습니다.

300x250

https://www.minimax.io/blog/minimax-m3

 

MiniMax M3: Frontier Coding, 1M Context, Native Multimodality — All in One Model - MiniMax Research

M3 reaches frontier capability on coding and agentic tasks, introduces the brand-new MSA (MiniMax Sparse Attention) supporting up to 1M context, and is a natively multimodal model. It is the only domestic model combining all three Frontier essentials and w

www.minimax.io

728x90
반응형
그리드형