애플이 공개한 차세대 AI 언어 모델, 무엇이 달라졌을까?
애플이 마침내 본격적인 생성형 AI 경쟁에 뛰어들었습니다. WWDC 2025에서 공개된 ‘Apple Intelligence’는 단순한 기능 업데이트가 아니라, 새로운 언어 모델 아키텍처와 프라이버시 중심 설계를 기반으로 완전히 새로운 사용자 경험을 제공합니다.
이번 블로그에서는 Apple Intelligence의 개념부터 언어 모델 구조, 개발자를 위한 프레임워크, 프라이버시 설계까지 WWDC 2025에서 발표된 내용을 쉽게 풀어 설명합니다.
Apple Intelligence란 무엇인가?
Apple Intelligence는 애플이 자체 개발한 생성형 AI 시스템입니다. 텍스트 요약, 실시간 정보 추출, 이미지 이해, 콘텐츠 생성 등 다양한 기능을 macOS, iOS, iPadOS 전반에 걸쳐 통합합니다.
가장 큰 특징은 ‘프라이버시 중심’의 설계입니다. 대부분의 AI 처리는 기기 내(On-device)에서 이루어지며, 서버 연산이 필요한 경우에도 Private Cloud Compute를 통해 데이터 보호가 보장됩니다.
여기에 15개 언어를 지원하며, 텍스트와 이미지를 모두 이해하는 멀티모달 능력을 갖추고 있습니다.
온디바이스와 서버 모델: 각각의 역할과 구조
Apple Intelligence는 크게 두 가지 모델로 구성됩니다.
온디바이스 모델 (~3B 파라미터)
- 기기 내에서 작동하며, 지연이 적고 전력 효율이 높습니다.
- 모델은 5:3 비율로 나뉜 두 블록으로 구성되며, KV 캐시를 공유하여 메모리 사용량을 37.5% 줄였습니다.
- 슬라이딩 윈도우 기반 로컬 어텐션, RoPE, 글로벌 어텐션을 조합하여 긴 문맥을 처리할 수 있습니다.
서버 모델: Parallel Track MoE 구조
- 병렬 트랙 아키텍처로 설계된 Mixture-of-Experts(MoE) 구조를 사용합니다.
- 서로 독립적인 트랜스포머 트랙으로 구성되어 동기화 비용이 최대 87.5% 감소합니다.
- 복잡한 연산이 필요한 경우에도 낮은 지연 시간으로 빠르게 대응 가능합니다.
이미지 이해를 위한 비전 모델
애플은 비전 기능도 강화했습니다.
- 서버 모델에는 ViT-g (1B 파라미터)를,
- 온디바이스 모델에는 ViTDet-L (300M 파라미터)를 탑재했습니다.
특히 Register-Window(RW) 메커니즘을 통해 이미지 내 국소적·전역적 맥락을 모두 잘 이해할 수 있도록 설계되었습니다.
훈련 데이터는 어떻게 구성되었나?
Apple은 훈련 데이터의 윤리성과 품질을 매우 중요하게 생각합니다.
텍스트 데이터
- Applebot이 크롤링한 수백억 개 웹페이지 기반 데이터 사용
- 고품질 HTML 선별을 위한 헤드리스 렌더링 및 LLM 기반 분석
- 욕설, 개인 정보 등은 필터링하여 학습에서 제외
이미지 데이터
- 100억 개 이상의 이미지-텍스트 페어
- PDF, 차트 등 시각적 의미가 풍부한 문서도 포함
- 자체 모델로 생성한 캡션을 통해 시각 이해력 강화
프라이버시 원칙
- 사용자 데이터나 상호작용은 절대 학습에 사용되지 않습니다.
훈련 방식: 사전 학습부터 RLHF까지
모델은 세 단계에 걸쳐 훈련됩니다.
- 사전 학습 (Pre-Training)
- 온디바이스 모델은 희소 모델(MoE)의 distillation 방식으로 학습 비용을 90% 절감
- 서버 모델은 14조 개 토큰을 사용해 완전한 학습 진행
- 비전 모델은 CLIP 방식으로 이미지-텍스트 페어 학습
- 추가 학습 (Continued Pre-Training)
- 수학, 코드, 긴 문맥 등 특정 능력 강화
- 멀티모달 학습을 위한 비전-언어 정렬 포함
- 후처리 (Post-Training)
- SFT(Supervised Fine-Tuning) + RLHF
- 인간 피드백을 통한 강화학습으로 실제 사용성과 성능 강화
- 이 방식은 다국어 및 도구 사용 능력에서도 우수한 결과를 보였습니다.
성능 최적화: 더 빠르게, 더 적게 소비하면서
애플은 추론 속도와 에너지 효율을 높이기 위한 다양한 최적화를 도입했습니다.
온디바이스 모델
- 2bit QAT(Quantization-Aware Training)를 통해 메모리 사용량 최소화
- 임베딩은 4bit, KV 캐시는 8bit로 압축
- Low-rank Adapter로 정확도 손실 최소화
서버 모델
- ASTC 기반 압축(3.56bit/weight)을 사용하여 Apple GPU에서 효율적으로 디코딩
- 성능 유지하면서도 리소스 절약
개발자를 위한 Foundation Models 프레임워크
애플은 개발자들이 이 기술을 쉽게 활용할 수 있도록 전용 프레임워크도 공개했습니다.
주요 기능
- Swift에서 사용할 수 있는 @Generable 매크로를 통한 구조화된 출력 생성
- 사전 훈련된 도구 호출 기능을 사용하여 커스텀 툴 통합 가능
- Python 기반 툴킷으로 Low-Rank Adapter 학습 지원
모델 성능은 어느 수준인가?
텍스트 성능
- 온디바이스 모델은 Qwen-2.5-3B보다 높은 정확도
- 서버 모델은 LLaMA-4-Scout와 동등하거나 우수한 성능
이미지 성능
- 온디바이스 모델은 Qwen-2.5-VL-3B보다 우수
- 서버 모델은 Qwen-2.5-VL-32B를 능가하지만 GPT-4o에는 다소 미치지 못함
지역별, 기능별 평가
- 로컬 문화에 맞는 응답 (예: 영국에서 'football' 사용)
- 캘린더 추출 등 실제 태스크별 평가를 통한 실용성 검증
책임 있는 AI와 프라이버시 보호 설계
Apple은 기술 개발 초기부터 Responsible AI 원칙을 중심에 두고 설계했습니다.
- 사용자 권한 강화
- 다양한 문화와 언어 반영
- 프라이버시 우선 정책
- 위험 콘텐츠 탐지 및 차단을 위한 멀티랭귀지 안전성 평가
또한, 사용자가 ‘좋아요/싫어요’ 피드백을 줄 수 있는 인터페이스를 통해 지속적으로 모델을 개선하고 있습니다.
애플의 AI, 늦었지만 강력하다
Apple Intelligence는 단순한 AI 기능이 아닙니다. 자체 언어 모델과 구조적 혁신, 그리고 프라이버시 보호를 동시에 실현한 플랫폼입니다.
애플은 빠르지는 않았지만, ‘프라이버시 중심 AI’라는 자신만의 방향성과 완성도를 보여주며 확실한 존재감을 드러냈습니다.
개발자에게는 새로운 창작 도구를, 사용자에게는 더 똑똑하고 안전한 디지털 경험을 제공할 수 있는 기반이 될 것으로 보입니다.
앞으로 Apple Intelligence가 실제 제품과 서비스에서 어떻게 녹아들지, 그 진화가 더욱 기대됩니다.
https://machinelearning.apple.com/research/apple-foundation-models-2025-updates
Updates to Apple's On-Device and Server Foundation Language Models
With Apple Intelligence, we're integrating powerful generative AI right into the apps and experiences people use every day, all while…
machinelearning.apple.com