Step 3.5 Flash: 고속 추론과 에이전트 기능을 결합한 오픈소스 LLM의 새로운 기준

728x90

728x170

대규모 언어 모델은 점점 더 커지고 있지만, 실제 업무에서 중요한 것은 “얼마나 빠르고, 얼마나 안정적으로, 얼마나 비용 효율적으로 동작하는가”입니다. Step 3.5 Flash는 이러한 요구에 맞춰 고속 추론, 에이전트 기능, 그리고 비용 효율성을 동시에 잡은 오픈소스 기반 파운데이션 모델입니다.

이 글에서는 Step 3.5 Flash의 아키텍처적 특징, 벤치마크 성능, 실제 활용 사례, 강화학습 프레임워크, 그리고 배포 및 확장성까지 전반적으로 정리해보겠습니다.

모델 개요 및 핵심 성능

Step 3.5 Flash는 고속 추론과 에이전트 기능을 결합한 오픈소스 기반 파운데이션 모델입니다. 평균 벤치마크 점수 81.0을 기록하며, GLM-4.7(78.5), DeepSeek V3.2(77.3), Kimi K2.5(80.5) 등 주요 모델 대비 높은 평균 점수를 보였습니다.

1. 희소 MoE 기반 고효율 구조

전체 1960억(196B) 매개변수 중 110억(11B)만 활성화하는 희소 Mixture of Experts 구조
글로벌 용량은 유지하면서, 토큰당 연산량을 줄여 추론 비용 절감
실시간 상호작용에 적합한 구조

즉, 모델은 크지만 실제 계산은 가볍게 수행합니다. 이는 대규모 모델의 성능과 경량 모델의 속도를 동시에 추구하는 설계입니다.

2. 고속 디코딩 및 긴 컨텍스트 지원

일반 사용 시 100~300 tok/s
코딩 작업 시 최대 350 tok/s 생성 속도
256K 컨텍스트 윈도우 지원
Sliding-Window Attention + Full Attention(3:1) 구조로 긴 문맥에서도 비용 효율 유지

128K 컨텍스트 기준 디코딩 비용은 1.0x로, DeepSeek V3.2(6.0x), Kimi K2.5(18.9x) 대비 효율적입니다. 긴 문서를 다루는 연구, 코드 분석, 리포트 생성 작업에 적합한 구조입니다.

코딩 및 에이전트 벤치마크 성능

Step 3.5 Flash는 단순한 텍스트 생성 모델이 아니라, 장기 코드 작업과 에이전트 기반 문제 해결에 초점을 맞추고 있습니다.

SWE-bench Verified 74.4%
Terminal-Bench 2.0 51.0%
LiveCodeBench-V6 86.4
AIME 2025 97.3
HMMT 2025 98.4
τ²-Bench 88.2
ResearchRubrics 65.3

특히 ResearchRubrics 벤치마크에서는 65.3%로 Gemini DeepResearch(63.7), OpenAI DeepResearch(60.7)보다 높은 점수를 기록했습니다. 단일 ReAct 기반 루프에서 계획, 검색, 검증, 작성 과정을 수행한다는 점이 특징입니다.

Claude Code 환경의 데이터 분석 벤치마크에서는 39.6%를 기록해 GPT-5.2(39.3)보다 근소하게 높은 수치를 보였습니다.

이 수치들은 단순 정답률이 아니라, 장기 추론 안정성과 에이전트 실행 능력을 보여주는 지표입니다.

도구 기반 추론과 실제 업무 활용

Step 3.5 Flash의 강점은 tool-augmented reasoning, 즉 도구 활용 기반 추론입니다.

1. 수학·코딩·데이터 분석 성능 향상

Python 실행을 통합했을 때 다음과 같은 성능 향상이 확인되었습니다.

AIME 2025: 99.8
HMMT 2025: 98.0
IMOAnswerBench: 86.7

단순히 “생각하는 모델”이 아니라, 실제로 실행하고 검증하는 모델에 가깝습니다.

2. 금융 및 자동화 시나리오

80개 이상 MCP 도구를 조합해 주식 데이터 수집, 분석, 알림 자동화 수행
Autonomous Business Intelligence Engine: CSV 처리부터 예측까지 자동화
데이터 품질 격차(1.6배) 식별

예를 들어, CSV 파일을 업로드하면 다음과 같은 흐름으로 동작합니다.

데이터 정제
이상치 탐지
기초 통계 분석
예측 모델 적용
리포트 생성

사용자는 분석 코드를 직접 작성하지 않아도 됩니다. 모델이 도구를 호출해 분석을 실행하고 결과를 구조화해 제공합니다.

3. 대규모 코드베이스 분석

Large-Scale Repository Architect는 대규모 코드베이스를 분석해 설계 패턴과 구현 세부를 연결하는 전문 위키를 자동 생성합니다.
이는 레거시 시스템 분석, 기술 인수인계, 아키텍처 리팩토링에 활용할 수 있습니다.

멀티 에이전트 및 클라우드-디바이스 연계

Step 3.5 Flash는 Multi-Agent Framework를 통해 Master Agent가 검색, 검증, 요약 에이전트를 조율합니다.

구조화된 결과 생성
작업 분업 및 병렬 처리
복합 업무 자동화

또한 Cloud-Device Synergy 구조를 통해 Step-GUI와 연동 시 AndroidDaily Hard 벤치마크에서 57점을 기록했습니다(단독 40점 대비 향상).

이는 클라우드 모델과 디바이스 인터페이스의 결합이 실제 작업 성능을 끌어올릴 수 있음을 보여줍니다.

아키텍처 및 기술적 특징

1. Sparse MoE 백본

글로벌 용량(196B)과 토큰당 연산(11B) 분리
속도와 비용을 동시에 최적화

2. Attention 구조 최적화

Sliding-Window Attention + Full Attention(3:1)
Head-wise Gated Attention으로 정보 흐름을 동적 제어
수치 안정성 확보

3. 로컬 실행 지원

INT4 GGUF 양자화 모델 제공
로컬 환경에서 20 tok/s, 256K 컨텍스트 지원
Mac Studio M4 Max, NVIDIA DGX Spark 등에서 실행 가능

대형 모델임에도 로컬 환경에서 구동 가능하다는 점은 개발자와 연구자에게 큰 장점입니다.

강화학습 프레임워크: MIS-PO

Step 3.5 Flash는 MIS-PO(Metropolis Independence Sampling Filtered Policy Optimization) 기법을 도입했습니다.

핵심 특징은 다음과 같습니다.

중요도 샘플링 대신 이진 필터링으로 불안정 샘플 제거
truncation-aware value bootstrapping
routing confidence monitoring

이를 통해 장기 추론 안정성을 확보하고, 수학·코딩·도구 활용 전반에서 지속적 자기 개선이 가능하도록 설계되었습니다.

한계 및 향후 방향

아무리 고성능 모델이라도 한계는 존재합니다.

동일 품질 대비 Gemini 3.0 Pro보다 더 긴 생성 필요
범용성과 전문성 결합을 위한 on-policy distillation 연구 진행 중
전문 업무·연구 수준으로 RL 확장 예정
장기 대화 또는 도메인 전환 시 반복 추론 및 혼합 언어 출력 가능성

이는 고도화 단계에서 해결해야 할 과제로 보입니다.

배포 및 접근성

OpenClaw 플랫폼과 통합
API 플랫폼(영문/중문) 제공
웹 및 모바일 앱(iOS/Android) 지원
Discord 커뮤니티를 통한 업데이트 및 지원

설치 및 모델 등록이 간단해 개발자뿐 아니라 일반 사용자도 접근할 수 있도록 설계되었습니다.

728x90

고속·저비용·에이전트 지향 모델의 현실적 대안

Step 3.5 Flash는 단순히 “빠른 LLM”이 아닙니다.

196B 글로벌 용량과 11B 활성화의 희소 MoE 구조
초당 최대 350 토큰 생성 속도
256K 컨텍스트 지원
도구 기반 추론 및 멀티 에이전트 오케스트레이션
MIS-PO 기반 장기 추론 안정성 확보

이 조합은 고성능 모델 대비 낮은 비용으로 프론티어급 추론·행동 능력을 제공한다는 점에서 의미가 있습니다.

특히 금융, 데이터 분석, 연구 자동화, 대규모 코드 분석과 같은 실제 업무 시나리오에서 실행력 중심의 LLM이 필요하다면, Step 3.5 Flash는 충분히 주목할 만한 선택지입니다.

앞으로 에이전트형 강화학습과 전문성 통합이 고도화된다면, 단순 보조 도구를 넘어 자율적 업무 수행 모델로 확장될 가능성도 기대해볼 수 있습니다.

300x250

https://static.stepfun.com/blog/step-3.5-flash/

Step 3.5 Flash: Fast Enough to Think. Reliable Enough to Act.

Architecture Optimized for Flash-Speed Decoding and Inference The architecture of Step 3.5 Flash is defined by a model-system co-design that prioritizes inference cost and speed as the core architectural constraint. We employ a Sparse Mixture-of-Experts (M

static.stepfun.com

728x90

그리드형

저작자표시 비영리 변경금지 (새창열림)

'인공지능' 카테고리의 다른 글

Mini Diarium: 인터넷 연결 없는 로컬 암호화 저널 애플리케이션의 구조와 보안 설계 (0)	2026.02.23
Claude Code에 영구 메모리 추가하기: memvid/claude-brain 플러그인으로 세션 간 맥락 유지하는 방법 (0)	2026.02.23
Vanna 2.0: 자연어를 SQL로 변환해 데이터 인사이트를 제공하는 엔터프라이즈 AI 분석 플랫폼 (0)	2026.02.20
TimesFM 2.5 완전 정리: Google Research 시계열 파운데이션 모델의 구조, 특징, 설치 및 사용 방법 (0)	2026.02.20
Claude Code 아키텍처로 살펴본 프롬프트 캐싱 설계 전략과 비용 최적화 원칙 (0)	2026.02.20

평범한 직장인이 사는 세상

Step 3.5 Flash: 고속 추론과 에이전트 기능을 결합한 오픈소스 LLM의 새로운 기준

모델 개요 및 핵심 성능

1. 희소 MoE 기반 고효율 구조

2. 고속 디코딩 및 긴 컨텍스트 지원

코딩 및 에이전트 벤치마크 성능

도구 기반 추론과 실제 업무 활용

1. 수학·코딩·데이터 분석 성능 향상

2. 금융 및 자동화 시나리오

3. 대규모 코드베이스 분석

멀티 에이전트 및 클라우드-디바이스 연계

아키텍처 및 기술적 특징

1. Sparse MoE 백본

2. Attention 구조 최적화

3. 로컬 실행 지원

강화학습 프레임워크: MIS-PO

한계 및 향후 방향

배포 및 접근성

고속·저비용·에이전트 지향 모델의 현실적 대안

'인공지능' 카테고리의 다른 글

티스토리툴바

Step 3.5 Flash: 고속 추론과 에이전트 기능을 결합한 오픈소스 LLM의 새로운 기준

모델 개요 및 핵심 성능

1. 희소 MoE 기반 고효율 구조

2. 고속 디코딩 및 긴 컨텍스트 지원

코딩 및 에이전트 벤치마크 성능

도구 기반 추론과 실제 업무 활용

1. 수학·코딩·데이터 분석 성능 향상

2. 금융 및 자동화 시나리오

3. 대규모 코드베이스 분석

멀티 에이전트 및 클라우드-디바이스 연계

아키텍처 및 기술적 특징

1. Sparse MoE 백본

2. Attention 구조 최적화

3. 로컬 실행 지원

강화학습 프레임워크: MIS-PO

한계 및 향후 방향

배포 및 접근성

고속·저비용·에이전트 지향 모델의 현실적 대안

'인공지능' 카테고리의 다른 글

'인공지능' Related Articles

티스토리툴바