AI 기술이 발전하면서 초거대 언어모델(LLM)의 경쟁이 치열해지고 있습니다. 한국에서도 글로벌 수준의 AI 모델을 개발하려는 시도가 계속되고 있는데, 그 중심에는 카카오의 Kanana 모델 패밀리가 있습니다.
카카오는 AI 모델을 보다 실용적이고 효율적으로 만들기 위해 Kanana Flag, Essence, Nano 모델을 개발했으며, 특히 연구자와 개발자를 위해 Kanana Nano 2.1B 모델을 오픈소스로 공개했습니다. 이 모델들은 한국어와 영어에서 강력한 성능을 발휘하며, 글로벌 AI 모델들과 경쟁할 수 있는 수준을 갖추고 있습니다.
이번 블로그에서는 Kanana 모델 패밀리의 특징과 성능, 학습 비용 절감 전략, 오픈소스 모델 활용법을 자세히 알아보겠습니다.
1. 카카오의 AI 도전: Kanana 모델 패밀리란?
카카오는 자체적인 AI 모델 개발을 위해 **Kanana 모델 패밀리(Kanana Model Family)**를 만들었습니다. 이 모델 패밀리는 크기와 용도에 따라 다음과 같이 구성됩니다.
- Kanana Flag (32.5B): 초거대 언어 모델로, 가장 높은 성능을 자랑하며 다양한 AI 작업을 수행할 수 있음
- Kanana Essence (9.8B): 중간 규모 모델로, 성능과 효율성의 균형을 맞춘 버전
- Kanana Nano (2.1B): 경량 모델로, 온디바이스에서도 활용 가능하며 연구자 및 개발자를 위해 오픈소스 공개
Kanana 모델은 Pre-training부터 Post-training까지 최적화된 학습 과정을 거쳐 개발되었으며, 이를 통해 글로벌 수준의 성능을 확보했습니다.
2. Kanana 모델의 성능 및 글로벌 경쟁력
Kanana 모델은 글로벌 AI 모델들과 비교했을 때도 경쟁력 있는 성능을 기록했습니다.
(1) 한국어·영어 AI 성능 비교
Kanana Flag(32.5B) 모델은 영어 및 한국어 벤치마크 테스트에서 우수한 결과를 기록했습니다.
모델 MMLU (영어) KMMLU (한국어) HumanEval+ (코딩) GSM8K (수학)
모델 | MMLU(영어) | MMLU(한국어) | HumanEval+(코) | GSM8K(수학) |
Kanana Flag 32.5B | 81.08 | 64.19 | 77.44 | 57.82 |
Qwen2.5 32B | 84.40 | 59.37 | 82.32 | 81.90 |
Gemma 2 27B | 78.01 | 49.98 | 70.12 | 53.80 |
EXAONE-3.5-32B | 78.30 | 55.44 | 78.66 | 76.80 |
특히 **한국어 벤치마크(KMMLU, KoMT-Bench)**에서는 글로벌 경쟁 모델 대비 압도적인 성능을 보이며, 한국어 특화 모델로서의 강점을 입증했습니다.
3. AI 모델 학습 비용 절감 전략
초거대 AI 모델을 학습하는 데는 막대한 컴퓨팅 자원이 필요합니다. 하지만 카카오는 효율적인 학습 전략을 적용하여 학습 비용을 절반 이하로 줄이는 데 성공했습니다.
(1) 학습 최적화 기법
- Staged Pre-training: 8B와 26.8B 크기의 모델을 먼저 학습한 후, 이를 확장하는 방식 적용
- Pruning (가지치기) & Distillation (지식 증류): 불필요한 부분을 제거하고, 작은 모델에서도 높은 성능을 유지하도록 최적화
- DUS (Depth Up-Scaling): 기존 모델을 기반으로 층을 깊게 확장하여 성능 향상
이러한 방법을 통해 Kanana 모델 패밀리는 유사한 크기의 글로벌 AI 모델 대비 학습 비용을 50% 이상 절감하면서도 높은 성능을 유지할 수 있었습니다.
4. Kanana Nano 2.1B: 오픈소스로 제공되는 경량 AI 모델
카카오는 연구자와 개발자가 AI 연구에 활용할 수 있도록 Kanana Nano 2.1B 모델을 오픈소스로 공개했습니다.
(1) Kanana Nano 2.1B의 특징
- **경량 모델(2.1B)**로, 온디바이스 환경에서도 원활하게 실행 가능
- 연구 및 개발 목적을 고려하여 Base, Instruct, Embedding 3가지 버전 제공
- 다양한 글로벌 모델과 경쟁할 수 있는 수준의 성능 확보
(2) Kanana Nano 2.1B 활용 방법
- AI 연구 및 개발에 활용
- 자연어 처리(NLP) 연구
- 챗봇 및 AI 비서 개발
- 문서 요약 및 질의응답 시스템 구축
- 온디바이스 AI 애플리케이션 개발
- 스마트폰, IoT 기기에서 AI 모델 적용
- 비용 절감 및 빠른 응답 속도 확보
- AI 모델 학습 및 튜닝
- 연구자가 직접 모델을 Fine-tuning 하여 특정 도메인에 최적화 가능
이처럼 Kanana Nano 2.1B는 다양한 활용 가능성을 갖고 있으며, 연구자 및 개발자가 최신 AI 기술을 자유롭게 실험하고 확장할 수 있도록 지원합니다.
5. Kanana 모델의 미래: 더 나은 AI를 향한 진화
카카오는 Kanana 모델 패밀리를 지속적으로 발전시키며, 앞으로 더 강력한 AI 모델로 진화시킬 계획입니다.
(1) 강화학습 및 얼라인먼트 기술 적용
- 추론(reasoning) 능력 향상
- 수학 및 코드 이해 능력 강화
- 사용자 요청을 더욱 정확하게 수행하도록 얼라인먼트(alignment) 최적화
(2) 멀티모달 AI로 확장
- 텍스트뿐만 아니라 음성, 이미지, 영상까지 이해하는 AI 모델 개발
- AI가 인간처럼 직관적으로 소통할 수 있도록 연구 진행
Kanana 모델 패밀리는 한국어와 영어에서 뛰어난 성능을 보이며, 글로벌 AI 시장에서도 경쟁력을 갖춘 모델입니다. 또한, 학습 비용을 절감하는 혁신적인 전략을 통해 보다 효율적인 AI 모델 개발이 가능하도록 했습니다.
특히, 연구자와 개발자를 위해 Kanana Nano 2.1B를 오픈소스로 공개하며, 국내 AI 연구 생태계 활성화와 글로벌 협업 확대를 위한 발판을 마련했습니다.
앞으로 Kanana 모델은 더욱 강력한 AI로 발전하며, 멀티모달 AI 시대를 선도할 가능성이 큽니다. 카카오의 AI 도전이 어디까지 이어질지 기대해봅니다. 🚀
https://github.com/kakao/kanana/blob/main/paper/KananaV1_Technical_Report.pdf
kanana/paper/KananaV1_Technical_Report.pdf at main · kakao/kanana
Kanana: Compute-efficient Bilingual Language Models - kakao/kanana
github.com
'인공지능' 카테고리의 다른 글
최신 AI 혁신, Phi-4 시리즈 등장! (0) | 2025.02.28 |
---|---|
차세대 AI 비서, Alexa+ 출시! 더 스마트하고 강력해진 기능을 만나보세요 (0) | 2025.02.28 |
[DeepSeek 다섯번째 공개] 초고속 AI 학습을 위한 Fire-Flyer File System(3FS) 완벽 해부 (0) | 2025.02.28 |
[DeepSeek 네번째 공개] DeepSeek-V3: AI 모델 학습과 추론을 혁신하는 DualPipe & EPLB 전략 (0) | 2025.02.28 |
GPT-4.5: AI의 새로운 도약! 무엇이 달라졌을까? (0) | 2025.02.28 |