본문 바로가기

인공지능

Kanana-2-30B-A3B: Agentic AI를 위한 차세대 오픈소스 언어 모델 정리

728x90
반응형
728x170

이 글에서는 Kakao Corp.가 공개한 최신 오픈소스 언어 모델 Kanana-2-30B-A3B 시리즈를 중심으로, 모델의 등장 배경과 기술적 개념, 핵심 아키텍처, 성능 특징, 그리고 실제 사용 방법까지 정리합니다. Agentic AI를 목표로 설계된 Kanana-2가 기존 대규모 언어 모델과 어떤 점에서 다른지, 그리고 왜 주목할 만한 선택지인지 이해할 수 있도록 설명합니다.

반응형

Kanana-2의 등장 배경과 방향성

Kanana-2는 기존 Kanana 모델 패밀리의 진화된 버전으로, Agentic AI 환경을 고려해 설계되었습니다. 단순 텍스트 생성에 그치지 않고,

  • 도구 호출(tool calling)
  • 복잡한 지시 사항 수행
  • 논리적 추론과 단계적 사고

와 같은 고급 사용 시나리오를 안정적으로 처리하는 데 초점을 맞췄습니다. 특히 성능 향상과 함께 실제 서비스 환경에서 중요한 처리량(throughput)효율성을 동시에 확보하는 것이 핵심 목표입니다.


핵심 아키텍처: MLA와 MoE의 결합

Kanana-2의 가장 큰 기술적 특징은 MLA(Multi-head Latent Attention)MoE(Mixture of Experts) 구조를 채택했다는 점입니다.

  • MoE 구조
    전체 파라미터 수는 300억(30B)이지만, 실제 추론 시 활성화되는 파라미터는 약 30억(3B)에 불과합니다. 이를 통해 연산 비용을 줄이면서도 성능은 이전 32.5B 모델 대비 향상되었습니다.
  • MLA Attention
    기존 Attention 구조 대비 효율적으로 정보를 처리하도록 설계되어, 긴 문맥에서도 안정적인 응답 품질을 유지합니다.

이러한 구조 덕분에 Kanana-2는 “큰 모델이지만 가볍게 쓰이는” 실용적인 설계를 갖추고 있습니다.


모델 스펙 한눈에 보기

kanana-2-30b-a3b 시리즈의 주요 사양은 다음과 같습니다.

  • 총 파라미터 수: 30B
  • 활성 파라미터 수: 3B
  • 레이어 수: 48
  • Dense 레이어 수: 1
  • Expert 수: 128
  • 선택 Expert 수: 6
  • 공유 Expert 수: 2
  • Attention 메커니즘: MLA
  • Vocabulary 크기: 128,256
  • 기본 Context Length: 32,768 토큰

다국어 지원과 한국어 성능

Kanana-2는 한국어, 영어, 일본어, 중국어, 태국어, 베트남어 총 6개 언어를 지원합니다. 이를 위해 새롭게 학습된 토크나이저를 사용하며, 특히 한국어 토크나이징 효율이 30% 이상 개선되었습니다.

한국어 벤치마크 결과에서도 KoSimpleQA, KMMLU, HAE-RAE Bench 등에서 이전 모델 대비 안정적인 성능을 보여주며, 실사용 관점에서 의미 있는 개선이 확인됩니다.


Reasoning 모델과 고난도 문제 대응

Kanana-2는 단순 생성 모델 외에도 Reasoning 모델을 별도로 제공합니다. 이 모델은

  • 의도적인 사고(deliberate thinking)
  • 단계적 추론(reasoning)

을 수행하도록 설계되어, 난이도 높은 문제나 복잡한 지시에서 성능이 크게 향상되었습니다. 특히 다운스트림 태스크에서 기존 모델 대비 유의미한 성능 개선이 보고되었습니다.


벤치마크로 본 전반적인 성능 특징

공개된 벤치마크 결과를 종합하면 Kanana-2는 다음과 같은 강점을 보입니다.

  • 일반 지식 및 QA 태스크에서 안정적인 정확도
  • 수학, 코딩 영역에서 이전 Kanana 대비 향상된 성능
  • 한국어 태스크에서 경쟁 오픈소스 모델 대비 경쟁력 있는 결과
  • 긴 문맥(Long Context) 처리 시 일관성 유지

이는 Agentic AI 및 실무 적용 관점에서 중요한 요소입니다.


모델 종류와 배포 형태

Kanana-2-30B-A3B는 용도에 따라 세 가지 형태로 제공됩니다.

  • base: 사전학습 모델
  • instruct: 지시 따르기에 최적화된 모델
  • thinking: 추론 및 사고 과정에 특화된 모델

모두 HuggingFace를 통해 다운로드 및 활용이 가능합니다.


간단한 사용 예제

Kanana-2는 transformers 라이브러리를 통해 바로 사용할 수 있습니다. 아래는 thinking 모델을 이용한 기본적인 텍스트 생성 예제입니다.

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "kakaocorp/kanana-2-30b-a3b-thinking"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="bfloat16",
    device_map="auto"
)

prompt = "Explain the future of AI."

messages = [
    {"role": "user", "content": prompt}
]

input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

output = model.generate(
    input_ids,
    max_new_tokens=256,
    do_sample=True,
    temperature=0.6,
    top_p=0.95,
    top_k=20,
)

print(tokenizer.decode(output[0]))

Reasoning 모델의 경우, 공식 가이드에서 권장하는 파라미터(temperature=0.6, top_p=0.95, top_k=20)를 유지하는 것이 중요하며, greedy decoding은 성능 저하와 반복 문제를 유발할 수 있어 권장되지 않습니다.


32K 이상의 긴 문맥 처리: YaRN 적용

기본 설정에서는 최대 32,768 토큰까지 지원하지만, YaRN rope scaling을 적용하면 최대 128K 토큰까지 확장할 수 있습니다.
다만 짧은 텍스트 성능 저하를 방지하기 위해, 필요할 때만 rope_scaling을 활성화하고 목적에 맞게 factor 값을 조정하는 것이 권장됩니다.


728x90

Kanana-2-30B-A3B는 효율적인 MoE 구조, 긴 문맥 처리 능력, 강화된 추론 성능, 그리고 한국어를 포함한 다국어 지원을 바탕으로 Agentic AI 시대를 겨냥한 실용적인 오픈소스 언어 모델입니다.
대규모 파라미터 모델의 성능을 유지하면서도 실제 서비스 환경에서 부담 없이 활용할 수 있다는 점에서, 연구와 실무 양쪽 모두에서 충분히 검토할 가치가 있는 선택지로 기대됩니다.

300x250

https://huggingface.co/kakaocorp/kanana-2-30b-a3b-thinking?fbclid=IwY2xjawO07IdleHRuA2FlbQIxMABicmlkETFjVkV4SmlsU1J2bzZUZmtuc3J0YwZhcHBfaWQQMjIyMDM5MTc4ODIwMDg5MgABHp29xt320bX6-tYBbY8tJ31VATAZ-Dnp0CGgmAGXVl6T_eDdjRctvDK1JnLk_aem_dyamYIx0Kw50luTgqeH19Q

 

kakaocorp/kanana-2-30b-a3b-thinking · Hugging Face

🤗 Kanana-2 Models   |   📕 Kanana-2 Blog   Kanana-2 Hightlights Kanana-2, the latest open-source evolution of the Kanana model family, is designed specifically for Agentic AI, presenting substantial enhancements in tool calling, complex instruction

huggingface.co

728x90
반응형
그리드형