본문 바로가기

llm

(56)
Titans: 트랜스포머 아키텍처를 대체할 새로운 패러다임 트랜스포머는 지난 몇 년간 언어 모델링과 시퀀스 모델링의 표준으로 자리 잡았지만, 긴 문맥 처리의 한계와 메모리 및 속도 문제는 해결되지 않은 과제였습니다. 구글 리서치팀이 최근 발표한 Titans 모델은 이러한 한계를 극복하며 새로운 가능성을 열고 있습니다. Titans는 Memory as a Context(MAC) 아키텍처를 통해 2M 토큰 이상의 긴 문맥 처리를 가능하게 하며, 언어 모델링, 유전체학, 시계열 분석 등 다양한 분야에서 혁신적인 결과를 보여주고 있습니다. 이 블로그에서는 Titans의 개념, 작동 원리, 그리고 기존 트랜스포머 모델과의 차별점에 대해 알아보겠습니다.1. Titans 모델이란 무엇인가?1-1. Titans의 핵심 개념Titans는 트랜스포머의 한계를 극복하기 위해 설계된..
추론 모델의 과잉 사고 문제 해결: 효율적이고 실용적인 접근법 추론 모델은 인간처럼 단계적 사고를 모방하는 데 능숙하지만, ‘과잉 사고(overthinking)’라는 문제로 실용성에 한계를 드러내고 있습니다. 이는 불필요하게 많은 계산 자원을 소모하면서도 정확도 향상에는 큰 기여를 하지 못하는 문제입니다. 이번 블로그에서는 텐센트와 상하이 자오퉁대학교 연구진의 연구를 중심으로, 이러한 문제를 해결하기 위한 혁신적인 학습 방법과 사례들을 살펴봅니다. 또한, 오픈AI와 기타 연구진의 효율성 개선 방안까지 함께 소개합니다.1. 과잉 사고란 무엇인가?‘과잉 사고’란 추론 모델이 간단한 문제를 해결하는 데 불필요하게 많은 계산 자원을 소모하거나 반복적인 추론 과정을 수행하는 현상을 말합니다.예시: 2+3 같은 간단한 문제를 해결하는 데 기존 대형 언어 모델(LLM)보다 훨씬..
로컬에서 대형 언어 모델(LLM)을 실행하는 방법: 시작부터 활용까지 로컬에서 대형 언어 모델(LLM)을 실행하는 방법에 대해 알아보겠습니다. 이 글은 Core i9(32스레드) CPU, 4090 GPU(16GB VRAM), 96GB RAM을 장착한 Linux 기반 랩톱을 사용하는 사례를 기반으로 작성되었습니다. 하지만 고성능 하드웨어가 없어도 적절한 설정을 통해 실행할 수 있으니 참고하세요.하드웨어 구성권장 사양CPU: Core i9과 같은 고성능 멀티코어 프로세서.GPU: 16GB 이상의 VRAM을 가진 GPU. (예: NVIDIA RTX 4090)RAM: 96GB 이상.주의점VRAM에 맞는 모델은 빠르게 작동하며, 더 큰 모델은 RAM으로 오프로드되어 속도가 느려질 수 있습니다.오래된 GPU나 CPU에서도 작은 모델을 실행할 수 있습니다.사용 도구주요 도구Ollama..
OpenAI o3: ARC-AGI-1에서 새로운 AI 성능의 지평을 열다 최근 OpenAI는 o3 시스템을 통해 ARC-AGI-1 공개 데이터셋에서 혁신적인 성과를 발표했습니다. 이번 성과는 단순히 GPT 계열 모델의 한계를 넘어서 AI 적응 능력의 새로운 가능성을 입증한 중요한 전환점으로 평가받고 있습니다. 특히 고효율 모드에서 75.7%의 점수를 기록하고, 고비용 모드에서는 87.5%의 점수를 달성하며, 기존 AI 모델의 한계를 극복한 점에서 주목받고 있습니다. 이번 블로그에서는 OpenAI o3의 ARC-AGI-1 결과와 그 의미를 상세히 살펴보고, 미래 AGI 연구에 대한 방향성을 탐구해보겠습니다.ARC-AGI-1 성과 분석성과 요약OpenAI o3는 ARC-AGI-1 테스트에서 고효율 및 저효율 두 가지 연산량 설정으로 평가되었습니다.Semi-Private Evalu..
Gemini 2.0: 미래의 AI를 열다 - 에이전트 AI와 그 진화 이야기 (w Oriol Vinyals) AI의 발전은 단순히 기술적 혁신의 연속일 뿐만 아니라, 우리가 미래를 상상하고 그 미래를 만들어가는 방식 자체를 바꾸는 과정입니다. 최근 DeepMind 팟캐스트에서 오리올 비이냘스(Oriol Vinyals)와의 대화는 이러한 AI 발전의 중심에 서 있는 Gemini 2.0과 에이전트 AI의 미래를 깊이 탐구하는 기회였습니다. 이번 블로그에서는 그의 통찰을 중심으로, AI 에이전트 기술이 어떻게 진화하고 있는지, 그리고 그들이 인간의 일상에 어떤 영향을 미칠 것인지에 대해 알아보겠습니다. Drastic Research란 무엇인가?오리올 비이냘스는 현재 Drastic Research의 부사장이자 Gemini의 공동 기술 책임자로 활동하고 있습니다. 그는 "drastic(급진적)으로 생각하라"는 철학을 팀..
메타, 최신 오픈소스 AI 모델 ‘Llama 3.3 70B’ 출시 메타가 혁신적인 오픈소스 대형 언어 모델(LLM) Llama 3.3 70B를 공식 출시했습니다. 이번에 공개된 모델은 700억 개의 매개변수를 가지고 있지만, 성능 면에서는 기존의 대형 모델과 맞먹거나 일부 영역에서는 더 뛰어난 결과를 보였습니다. 특히, 비용 효율성과 접근성을 강조하며 AI 업계에 새로운 기준을 제시했습니다.Llama 3.3 70B의 특징1. 성능과 비용의 균형메타의 아메드 알-달(Ahmed Al-Dahl) 생성 AI 부사장은 이 모델을 두고 "405B 매개변수 모델과 비슷한 성능을 제공하면서도 실행은 훨씬 간단하고 비용도 효율적"이라고 밝혔습니다. 실제로 Llama 3.3은 최신 사후 훈련 기술과 온라인 선호도 최적화를 활용하여 뛰어난 성능을 발휘하면서도 토큰당 비용을 크게 낮췄습니다..
RAGCHECKER: RAG 시스템 평가의 새로운 표준 RAG (Retrieval-Augmented Generation) 시스템은 대규모 언어 모델(LLM)의 잠재력을 더욱 확장하여 외부 지식 기반을 활용함으로써 더 정확하고 맥락에 맞는 응답을 생성합니다. 하지만 이러한 시스템을 효과적으로 평가하고 진단하는 것은 상당한 도전 과제입니다.RAGCHECKER는 이러한 문제를 해결하기 위해 설계된 혁신적인 평가 프레임워크로, RAG 시스템의 성능을 심층적으로 분석하고 개선 방향을 제시할 수 있는 포괄적인 메트릭과 도구를 제공합니다.RAGCHECKER란 무엇인가요?RAGCHECKER는 Retrieval-Augmented Generation 시스템을 평가하고 진단하기 위해 설계된 자동화된 고급 평가 프레임워크입니다. 이를 통해 개발자와 연구자는 RAG 시스템의 성능을..
Tree of Thoughts: 인공지능의 새로운 문제 해결 패러다임 최근 대규모 언어 모델(LM, Large Language Model)은 다양한 작업에 적용되며 그 성능을 입증해왔습니다. 하지만 대부분의 LM은 토큰 단위로 좌에서 우로 순차적인 선택을 수행하는 auto-regressive 메커니즘에 의존합니다. 이는 단순한 작업에는 효과적일 수 있지만, 탐구와 전략적 결정이 필요한 복잡한 문제에서는 한계에 부딪힐 수 있습니다.이 한계를 극복하기 위해, 논문 *"Tree of Thoughts: Deliberate Problem Solving with LMs"*는 새로운 프레임워크인 **Tree of Thoughts (ToT)**를 제안합니다. ToT는 기존의 CoT (Chain of Thought)를 확장하여 모델이 문제를 해결할 때 다양한 경로를 탐구하고 더 정교한 결..