본문 바로가기

인공지능

LLM에서 에이전트까지: 5단계로 끝내는 AI 진화 로드맵

728x90
반응형
728x170

최근 몇 년 사이, AI의 발전 속도는 눈부시게 빨라졌습니다. 특히 대규모 언어 모델(LLM)은 단순히 텍스트를 주고받는 수준을 넘어, 도구를 활용하고 기억을 축적하며 추론하는 **에이전트(Agent)**로까지 진화했습니다.

하지만 RAG, 멀티모달, 메모리, 에이전트라는 용어가 한꺼번에 쏟아지면서, 흐름을 한눈에 정리하기 어렵습니다. 이번 글에서는 LLM에서 에이전트까지의 5단계 진화 과정을 단계별로 살펴보며, 각 발전이 어떤 의미를 갖는지 명확히 정리합니다.

반응형

1단계: Small Context Window LLMs

가장 초기의 LLM은 입력과 출력을 단순히 연결하는 구조였습니다.

  • 입력: 텍스트
  • 처리: LLM 내부 언어 모델
  • 출력: 텍스트

당시의 한계는 ‘짧은 문맥’에 있었습니다. 예를 들어 ChatGPT 초창기 모델은 4,000토큰 정도의 맥락만 처리할 수 있었기 때문에, 긴 문서나 복잡한 대화를 다루는 데 어려움이 있었습니다.


2단계: Large Context Window LLMs

이후 모델은 점차 더 많은 토큰을 처리할 수 있게 되었습니다. 수만 개 이상의 토큰을 다룰 수 있는 모델이 등장하면서, 긴 보고서나 수십 페이지 문서를 한 번에 입력하고 요약할 수 있게 되었습니다.

  • 무엇이 달라졌나?
    단순히 길이가 늘어난 것 이상의 의미가 있습니다. 대화의 맥락 유지대규모 문서 분석이 가능해졌다는 점에서 활용 폭이 크게 넓어졌습니다.

3단계: LLM + Tool Usage (RAG 시대)

LLM이 스스로 가진 지식만으로는 한계가 있었습니다. 새로운 정보나 정확한 계산을 처리하려면 외부 자원이 필요했죠. 이때 등장한 개념이 **RAG(Retrieval-Augmented Generation)**와 도구 사용입니다.

  • 입력: 텍스트
  • 처리: LLM + 검색, API, 계산기, 데이터베이스 등 외부 도구
  • 출력: 텍스트

덕분에 모델은 최신 뉴스 검색, 정확한 수학 계산, 데이터베이스 질의 등 실시간 정보 활용이 가능해졌습니다. 이 단계에서 LLM은 더 이상 단순한 대화형 모델이 아닌, 업무 보조 도구로 자리잡기 시작했습니다.


4단계: 멀티모달 + 도구 + 메모리

다음 단계는 입력의 다양성과 상호작용의 지속성입니다.

  • 멀티모달 입력: 텍스트뿐 아니라 이미지, 오디오 등 다양한 데이터 처리
  • 도구 사용: 여전히 외부 도구와 연결 가능
  • 메모리: 이전 대화와 맥락을 지속적으로 기억

즉, 사진을 분석하고, 그 결과를 텍스트로 설명하며, 동시에 과거 대화 내용을 기억해 연결할 수 있는 모델이 등장한 것입니다. 이 ‘기억’의 추가는 사람과의 상호작용을 보다 자연스럽게 만들었습니다.


5단계: 추론·메모리를 갖춘 에이전트

마지막으로 도달한 단계가 바로 에이전트 시대입니다. 여기서 모델은 단순 응답 생성기를 넘어, 추론 능력과 다양한 메모리 구조를 활용해 의사결정을 내립니다.

  • 메모리 구조
    • 단기 메모리: 현재 대화 맥락
    • 장기 메모리: 반복적인 상호작용에서 얻은 지식
    • 일화 메모리: 특정 사건이나 경험을 기억
  • 도구 호출: 필요할 때 검색, API, 액션 실행
  • 추론(ReAct 방식): “이 문제를 해결하기 위해 어떤 순서로 도구를 사용해야 할까?”라는 사고 과정을 거쳐 행동 결정

즉, 이제 모델은 단순히 답을 주는 것이 아니라, 스스로 계획을 세우고 실행하는 주체로 기능합니다. 이것이 오늘날 우리가 말하는 AI 에이전트의 핵심입니다.


한눈에 보는 5단계 비교

단계 입력 처리 출력 핵심 진화 포인트
1단계 텍스트 LLM 텍스트 짧은 맥락만 처리 가능
2단계 긴 텍스트 LLM 텍스트 대규모 문서·대화 가능
3단계 텍스트 LLM + 도구 텍스트 외부 데이터·검색 활용
4단계 텍스트 + 이미지 등 LLM + 도구 + 메모리 멀티모달 상호작용 지속성, 멀티모달
5단계 멀티모달 LLM + 추론 + 메모리 + 도구 멀티모달 에이전트로서 의사결정·행동

728x90

AI는 단순 대화형 모델에서 출발해, 점차 맥락 확장 → 외부 도구 활용 → 멀티모달·메모리 → 추론 기반 에이전트로 발전해왔습니다.

이 과정에서 가장 큰 의미는 **“할 수 있는 일의 범위”**가 계속 넓어졌다는 점입니다. 초기에는 답변 생성에 불과했지만, 지금은 상황을 이해하고, 필요한 도구를 선택하고, 기억을 활용해 의사결정을 내리는 주체로 자리잡았습니다.

앞으로의 기대 포인트는 명확합니다. 에이전트는 단순 보조 도구를 넘어, 비즈니스 프로세스 자동화, 개인화 서비스, 지능형 의사결정에 본격적으로 활용될 것입니다. 이제 중요한 것은 우리가 이 변화를 어디에 적용할지, 어떤 단계의 기술이 우리 상황에 적합한지를 판단하는 일입니다.

 

728x90
반응형
그리드형