본문 바로가기

인공지능

Step 3.5 Flash: 고속 추론과 에이전트 기능을 결합한 오픈소스 LLM의 새로운 기준

728x90
반응형
728x170

대규모 언어 모델은 점점 더 커지고 있지만, 실제 업무에서 중요한 것은 “얼마나 빠르고, 얼마나 안정적으로, 얼마나 비용 효율적으로 동작하는가”입니다. Step 3.5 Flash는 이러한 요구에 맞춰 고속 추론, 에이전트 기능, 그리고 비용 효율성을 동시에 잡은 오픈소스 기반 파운데이션 모델입니다.

이 글에서는 Step 3.5 Flash의 아키텍처적 특징, 벤치마크 성능, 실제 활용 사례, 강화학습 프레임워크, 그리고 배포 및 확장성까지 전반적으로 정리해보겠습니다.

반응형

모델 개요 및 핵심 성능

Step 3.5 Flash는 고속 추론과 에이전트 기능을 결합한 오픈소스 기반 파운데이션 모델입니다. 평균 벤치마크 점수 81.0을 기록하며, GLM-4.7(78.5), DeepSeek V3.2(77.3), Kimi K2.5(80.5) 등 주요 모델 대비 높은 평균 점수를 보였습니다.

1. 희소 MoE 기반 고효율 구조

  • 전체 1960억(196B) 매개변수 중 110억(11B)만 활성화하는 희소 Mixture of Experts 구조
  • 글로벌 용량은 유지하면서, 토큰당 연산량을 줄여 추론 비용 절감
  • 실시간 상호작용에 적합한 구조

즉, 모델은 크지만 실제 계산은 가볍게 수행합니다. 이는 대규모 모델의 성능과 경량 모델의 속도를 동시에 추구하는 설계입니다.

2. 고속 디코딩 및 긴 컨텍스트 지원

  • 일반 사용 시 100~300 tok/s
  • 코딩 작업 시 최대 350 tok/s 생성 속도
  • 256K 컨텍스트 윈도우 지원
  • Sliding-Window Attention + Full Attention(3:1) 구조로 긴 문맥에서도 비용 효율 유지

128K 컨텍스트 기준 디코딩 비용은 1.0x로, DeepSeek V3.2(6.0x), Kimi K2.5(18.9x) 대비 효율적입니다. 긴 문서를 다루는 연구, 코드 분석, 리포트 생성 작업에 적합한 구조입니다.


코딩 및 에이전트 벤치마크 성능

Step 3.5 Flash는 단순한 텍스트 생성 모델이 아니라, 장기 코드 작업과 에이전트 기반 문제 해결에 초점을 맞추고 있습니다.

  • SWE-bench Verified 74.4%
  • Terminal-Bench 2.0 51.0%
  • LiveCodeBench-V6 86.4
  • AIME 2025 97.3
  • HMMT 2025 98.4
  • τ²-Bench 88.2
  • ResearchRubrics 65.3

특히 ResearchRubrics 벤치마크에서는 65.3%로 Gemini DeepResearch(63.7), OpenAI DeepResearch(60.7)보다 높은 점수를 기록했습니다. 단일 ReAct 기반 루프에서 계획, 검색, 검증, 작성 과정을 수행한다는 점이 특징입니다.

Claude Code 환경의 데이터 분석 벤치마크에서는 39.6%를 기록해 GPT-5.2(39.3)보다 근소하게 높은 수치를 보였습니다.

이 수치들은 단순 정답률이 아니라, 장기 추론 안정성과 에이전트 실행 능력을 보여주는 지표입니다.


도구 기반 추론과 실제 업무 활용

Step 3.5 Flash의 강점은 tool-augmented reasoning, 즉 도구 활용 기반 추론입니다.

1. 수학·코딩·데이터 분석 성능 향상

Python 실행을 통합했을 때 다음과 같은 성능 향상이 확인되었습니다.

  • AIME 2025: 99.8
  • HMMT 2025: 98.0
  • IMOAnswerBench: 86.7

단순히 “생각하는 모델”이 아니라, 실제로 실행하고 검증하는 모델에 가깝습니다.

2. 금융 및 자동화 시나리오

  • 80개 이상 MCP 도구를 조합해 주식 데이터 수집, 분석, 알림 자동화 수행
  • Autonomous Business Intelligence Engine: CSV 처리부터 예측까지 자동화
  • 데이터 품질 격차(1.6배) 식별

예를 들어, CSV 파일을 업로드하면 다음과 같은 흐름으로 동작합니다.

  1. 데이터 정제
  2. 이상치 탐지
  3. 기초 통계 분석
  4. 예측 모델 적용
  5. 리포트 생성

사용자는 분석 코드를 직접 작성하지 않아도 됩니다. 모델이 도구를 호출해 분석을 실행하고 결과를 구조화해 제공합니다.

3. 대규모 코드베이스 분석

Large-Scale Repository Architect는 대규모 코드베이스를 분석해 설계 패턴과 구현 세부를 연결하는 전문 위키를 자동 생성합니다.
이는 레거시 시스템 분석, 기술 인수인계, 아키텍처 리팩토링에 활용할 수 있습니다.


멀티 에이전트 및 클라우드-디바이스 연계

Step 3.5 Flash는 Multi-Agent Framework를 통해 Master Agent가 검색, 검증, 요약 에이전트를 조율합니다.

  • 구조화된 결과 생성
  • 작업 분업 및 병렬 처리
  • 복합 업무 자동화

또한 Cloud-Device Synergy 구조를 통해 Step-GUI와 연동 시 AndroidDaily Hard 벤치마크에서 57점을 기록했습니다(단독 40점 대비 향상).

이는 클라우드 모델과 디바이스 인터페이스의 결합이 실제 작업 성능을 끌어올릴 수 있음을 보여줍니다.


아키텍처 및 기술적 특징

1. Sparse MoE 백본

  • 글로벌 용량(196B)과 토큰당 연산(11B) 분리
  • 속도와 비용을 동시에 최적화

2. Attention 구조 최적화

  • Sliding-Window Attention + Full Attention(3:1)
  • Head-wise Gated Attention으로 정보 흐름을 동적 제어
  • 수치 안정성 확보

3. 로컬 실행 지원

  • INT4 GGUF 양자화 모델 제공
  • 로컬 환경에서 20 tok/s, 256K 컨텍스트 지원
  • Mac Studio M4 Max, NVIDIA DGX Spark 등에서 실행 가능

대형 모델임에도 로컬 환경에서 구동 가능하다는 점은 개발자와 연구자에게 큰 장점입니다.


강화학습 프레임워크: MIS-PO

Step 3.5 Flash는 MIS-PO(Metropolis Independence Sampling Filtered Policy Optimization) 기법을 도입했습니다.

핵심 특징은 다음과 같습니다.

  • 중요도 샘플링 대신 이진 필터링으로 불안정 샘플 제거
  • truncation-aware value bootstrapping
  • routing confidence monitoring

이를 통해 장기 추론 안정성을 확보하고, 수학·코딩·도구 활용 전반에서 지속적 자기 개선이 가능하도록 설계되었습니다.


한계 및 향후 방향

아무리 고성능 모델이라도 한계는 존재합니다.

  • 동일 품질 대비 Gemini 3.0 Pro보다 더 긴 생성 필요
  • 범용성과 전문성 결합을 위한 on-policy distillation 연구 진행 중
  • 전문 업무·연구 수준으로 RL 확장 예정
  • 장기 대화 또는 도메인 전환 시 반복 추론 및 혼합 언어 출력 가능성

이는 고도화 단계에서 해결해야 할 과제로 보입니다.


배포 및 접근성

  • OpenClaw 플랫폼과 통합
  • API 플랫폼(영문/중문) 제공
  • 웹 및 모바일 앱(iOS/Android) 지원
  • Discord 커뮤니티를 통한 업데이트 및 지원

설치 및 모델 등록이 간단해 개발자뿐 아니라 일반 사용자도 접근할 수 있도록 설계되었습니다.


728x90

고속·저비용·에이전트 지향 모델의 현실적 대안

Step 3.5 Flash는 단순히 “빠른 LLM”이 아닙니다.

  • 196B 글로벌 용량과 11B 활성화의 희소 MoE 구조
  • 초당 최대 350 토큰 생성 속도
  • 256K 컨텍스트 지원
  • 도구 기반 추론 및 멀티 에이전트 오케스트레이션
  • MIS-PO 기반 장기 추론 안정성 확보

이 조합은 고성능 모델 대비 낮은 비용으로 프론티어급 추론·행동 능력을 제공한다는 점에서 의미가 있습니다.

특히 금융, 데이터 분석, 연구 자동화, 대규모 코드 분석과 같은 실제 업무 시나리오에서 실행력 중심의 LLM이 필요하다면, Step 3.5 Flash는 충분히 주목할 만한 선택지입니다.

앞으로 에이전트형 강화학습과 전문성 통합이 고도화된다면, 단순 보조 도구를 넘어 자율적 업무 수행 모델로 확장될 가능성도 기대해볼 수 있습니다.

300x250

https://static.stepfun.com/blog/step-3.5-flash/

 

Step 3.5 Flash: Fast Enough to Think. Reliable Enough to Act.

Architecture Optimized for Flash-Speed Decoding and Inference The architecture of Step 3.5 Flash is defined by a model-system co-design that prioritizes inference cost and speed as the core architectural constraint. We employ a Sparse Mixture-of-Experts (M

static.stepfun.com

728x90
반응형
그리드형