본문 바로가기

인공지능

메타, 최신 오픈소스 AI 모델 ‘Llama 3.3 70B’ 출시

728x90
반응형

메타가 혁신적인 오픈소스 대형 언어 모델(LLM) Llama 3.3 70B를 공식 출시했습니다. 이번에 공개된 모델은 700억 개의 매개변수를 가지고 있지만, 성능 면에서는 기존의 대형 모델과 맞먹거나 일부 영역에서는 더 뛰어난 결과를 보였습니다. 특히, 비용 효율성과 접근성을 강조하며 AI 업계에 새로운 기준을 제시했습니다.

반응형

Llama 3.3 70B의 특징

1. 성능과 비용의 균형

메타의 아메드 알-달(Ahmed Al-Dahl) 생성 AI 부사장은 이 모델을 두고 "405B 매개변수 모델과 비슷한 성능을 제공하면서도 실행은 훨씬 간단하고 비용도 효율적"이라고 밝혔습니다. 실제로 Llama 3.3은 최신 사후 훈련 기술온라인 선호도 최적화를 활용하여 뛰어난 성능을 발휘하면서도 토큰당 비용을 크게 낮췄습니다.

  • 입력 비용: $0.01
  • 출력 비용: $0.04
    이는 다른 첨단 모델의 8분의 1에서 25분의 1 수준입니다.

2. 최신 기술 도입

Llama 3.3은 감독미세조정(SFT), 인간 피드백 강화 학습(RLHF), 그리고 그룹-쿼리 어텐션(GQA) 등의 최신 기술을 활용하여 매개변수를 줄이면서도 성능 저하를 방지했습니다.

  • 데이터 학습 규모: 약 15조 토큰의 데이터를 사전 학습했으며, 미세 조정 과정에서는 2,500만 개 이상의 합성 예제를 포함했습니다.
  • 컨텍스트 창: 12만 8,000개의 토큰을 지원하며, 이는 기존 모델과 유사한 수준입니다.

3. 다양한 언어 지원

Llama 3.3은 영어를 포함하여 독일어, 프랑스어, 이탈리아어, 스페인어, 포르투갈어, 힌디어, 태국어 등 다양한 언어를 지원합니다. 이를 통해 글로벌 사용자의 요구를 충족시킬 수 있는 확장성을 제공합니다.


벤치마크 결과

1. 언어 이해 (MMLU)

Llama 3.3은 언어 이해 능력을 평가하는 MMLU 테스트에서 일부 다른 첨단 모델에 약간 뒤졌지만, 여전히 경쟁력 있는 성능을 보였습니다.

2. 사용자 지시 응답 능력 (IFEval)

사용자 지시에 따른 응답 능력을 평가하는 IFEval 테스트에서는 아마존 노바 프로와 함께 가장 높은 점수를 기록했습니다.

3. 코딩 능력 (Human Eval)

코딩 능력 평가에서도 주요 모델들과 어깨를 나란히 하며 첨단 AI 모델로서의 자리를 공고히 했습니다.


미래 전망과 메타의 비전

메타의 CEO 마크 저커버그는 Llama 3.3을 올해의 마지막 빅 업데이트로 소개하며, 2025년 출시 예정인 Llama 4에 대한 기대감을 높였습니다.
또한, 메타 AI 챗봇이 월간 6억 명의 활성 사용자를 확보하며 전 세계에서 가장 많이 사용되는 AI 어시스턴트로 자리잡고 있음을 강조했습니다.


차세대 인프라를 위한 데이터센터 건설

메타는 미국 루이지애나주에 약 14조 원 규모의 데이터센터를 2030년까지 완공할 계획이라고 밝혔습니다. 이는 메타의 역사상 최대 규모의 슈퍼컴퓨팅 클러스터로, 오픈AI, 구글, xAI와의 AGI(인공일반지능) 경쟁에서 우위를 점하기 위한 중요한 전략입니다.


Llama-3.3-70B-Instruct 사용 가이드

Meta가 출시한 최신 오픈소스 대형 언어 모델(LLM) Llama-3.3-70B-Instruct는 다양한 방식으로 활용 가능합니다. 아래는 모델 사용 방법과 관련된 실용적인 예시를 소개합니다.

1. Transformers를 활용한 텍스트 생성

transformers 라이브러리를 사용하여 간단한 대화 생성 및 텍스트 처리를 수행할 수 있습니다.

import transformers

model_id = "meta-llama/Llama-3.3-70B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": "bfloat16"},
    device_map="auto",
)

# 대화 메시지 정의
messages = [
    {"role": "system", "content": "You are a motivational coach who inspires users."},
    {"role": "user", "content": "Can you motivate me to start exercising?"},
]

# 텍스트 생성
outputs = pipeline(messages, max_new_tokens=256)
print(outputs[0]["generated_text"])

이 코드는 모델이 동기 부여 코치 역할을 하도록 설정하고, 사용자에게 운동을 시작하도록 영감을 줄 수 있는 메시지를 생성합니다.


2. 도구 호출을 통한 외부 데이터 활용

Llama-3.3은 외부 데이터를 활용하기 위한 도구 호출 기능을 지원합니다. 예를 들어, 날씨 데이터를 처리할 수 있습니다.

# 도구 정의
def get_weather(location: str) -> str:
    return f"The current weather in {location} is sunny, 25°C."

# 채팅 메시지 정의
messages = [
    {"role": "system", "content": "You are a bot that answers weather-related queries."},
    {"role": "user", "content": "What's the weather in New York?"},
]

# 도구 호출 추가
tool_call = {"name": "get_weather", "arguments": {"location": "New York"}}
messages.append({"role": "assistant", "tool_calls": [{"type": "function", "function": tool_call}]})

# 도구 결과 추가
messages.append({"role": "tool", "name": "get_weather", "content": "The current weather in New York is sunny, 25°C."})

이 코드는 뉴욕의 날씨 정보를 가져오는 도구 호출 예제를 보여줍니다. 모델이 도구 호출을 인식하고 결과를 활용할 수 있도록 설정합니다.


3. BitsAndBytes를 사용한 메모리 최적화

bitsandbytes를 활용하면 8-bit 또는 4-bit 환경에서 모델을 실행해 메모리를 절약할 수 있습니다.

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

model_id = "meta-llama/Llama-3.3-70B-Instruct"

# 8-bit 양자화를 위한 설정
quantization_config = BitsAndBytesConfig(load_in_8bit=True)

quantized_model = AutoModelForCausalLM.from_pretrained(
    model_id, device_map="auto", torch_dtype=torch.bfloat16, quantization_config=quantization_config
)

tokenizer = AutoTokenizer.from_pretrained(model_id)

# 입력 텍스트
input_text = "What do you recommend for a quick healthy meal?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

# 텍스트 생성
output = quantized_model.generate(**input_ids, max_new_tokens=50)
print(tokenizer.decode(output[0], skip_special_tokens=True))

이 코드는 8-bit 양자화를 활용하여 메모리 사용량을 최적화한 상태로 모델을 실행하는 방법을 보여줍니다.


하드웨어 및 소프트웨어 요구 사항

  • 필수 소프트웨어:
    • Python ≥ 3.8
    • transformers ≥ 4.43.0
    • bitsandbytes
  • 권장 하드웨어:
    • GPU (최소 24GB 메모리 이상)

설치 명령어:

pip install --upgrade transformers bitsandbytes
728x90

결론

메타의 Llama 3.3 70B는 성능, 비용 효율성, 접근성 면에서 업계를 선도하는 혁신적인 모델로 자리잡았습니다. 오픈소스 커뮤니티에 개방된 이 모델은 다양한 분야에서 창의적이고 실질적인 응용 가능성을 열어줄 것으로 기대됩니다.
다가올 Llama 4와 메타의 데이터센터 구축 소식은 AI 분야에서 메타의 선도적 위치를 더욱 확고히 할 것으로 보입니다.

https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct

 

meta-llama/Llama-3.3-70B-Instruct · Hugging Face

The information you provide will be collected, stored, processed and shared in accordance with the Meta Privacy Policy. LLAMA 3.3 COMMUNITY LICENSE AGREEMENT Llama 3.3 Version Release Date: December 6, 2024 "Agreement" means the terms and conditions for us

huggingface.co

728x90
반응형