본문 바로가기

인공지능

ReAct: LLM의 새로운 패러다임, 이유와 행동을 결합하다!

728x90
반응형

ReAct란 무엇인가? 어떻게 탄생하게 되었는지에 대한 배경

ReAct는 Reasoning과 Acting의 결합을 통해 대형 언어 모델(LLM)을 더욱 효과적으로 활용하는 새로운 프롬프트 기법입니다. ReAct는 LLM이 문제 해결 과정에서 **사고(Reasoning)**와 **행동(Acting)**을 번갈아 생성하게 하여, 두 가지 능력을 조화롭게 발휘하도록 설계되었습니다. 전통적인 LLM은 사고와 행동을 분리하여 사용했지만, 이로 인해 종종 오류나 비현실적인 정보를 생성하는 한계가 있었습니다. ReAct는 이를 해결하고, 외부 환경과의 상호작용을 통해 더 신뢰할 수 있는 결과를 도출하고자 만들어졌습니다​.

이 접근 방식은 인간의 문제 해결 과정에서 영감을 받았습니다. 요리를 할 때처럼, 사람은 행동하기 전에 상황을 분석하고 계획을 세우며, 필요한 외부 정보를 얻기 위해 검색하거나 책을 참고합니다. 이러한 사고와 행동의 결합이 효율적인 문제 해결의 핵심이듯, ReAct도 이를 모방한 방법입니다​.


반응형

ReAct 프롬프트 예제와 작동 원리

ReAct의 작동 방식을 보다 명확하게 이해하기 위해 실제 예제를 살펴보겠습니다. 이 예제는 질문 응답 시스템에서의 ReAct 프롬프트를 기반으로 하여, HotpotQA와 같은 복잡한 정보 검색 및 추론 작업에 적용된 사례입니다.

예시 질문

“Apple Remote는 어떤 기기와 상호작용하기 위해 처음 설계되었나요?”

이 질문은 Apple Remote가 처음 어떤 기기와 연결되었는지 묻는 질문으로, 단순히 사전에 저장된 정보로는 정확한 답을 도출하기 어려울 수 있습니다. 이때 ReAct는 사고(Reasoning)와 행동(Acting)을 번갈아 진행하며 문제를 해결합니다.

1. 사고(Reasoning)

“Apple Remote가 처음 어떤 기기와 상호작용하기 위해 설계되었는지 알아내야 해.”

2. 행동(Acting)

Apple Remote에 대해 검색을 시작합니다.

Search [Apple Remote]

3. 관찰(Observation)

검색 결과: Apple Remote는 2005년에 Apple에서 발표한 리모트 컨트롤로, 초기에는 Front Row 소프트웨어와 함께 작동하도록 설계되었습니다.

Observation: The Apple Remote is a remote control introduced in 2005, originally designed to interact with the Front Row media center software.

4. 사고(Reasoning)

“Apple Remote가 처음에는 Front Row 소프트웨어와 상호작용하기 위해 설계되었구나. 하지만 이 기기가 더 구체적으로 어떤 장치에서 사용되는지 확인해야 해.”

5. 행동(Acting)

Front Row에 대해 검색을 계속합니다.

Search [Front Row software]

6. 관찰(Observation)

Front Row는 Apple의 미디어 센터 소프트웨어로, 주로 iMacApple TV와 함께 사용되었습니다.

Observation: Front Row is a media center software for Apple computers, commonly used with iMac and Apple TV.

7. 사고(Reasoning)

“이제 답을 얻었어. Apple Remote는 처음에 iMac과 Apple TV와 상호작용하기 위해 설계되었어.”

8. 행동(Acting)

답을 도출하여 완료합니다.

Finish [iMac and Apple TV]

최종 답변:

“Apple Remote는 iMac과 Apple TV와 상호작용하기 위해 처음 설계되었습니다.”


작동 원리 설명

이 예제에서 ReAct는 사고(Reasoning)와 행동(Acting)을 번갈아 수행하면서 질문을 해결합니다.

  1. 사고(Reasoning) 단계에서는 질문의 의미를 분석하고, 어떤 정보를 찾아야 할지를 결정합니다. 예제에서는 Apple Remote가 처음 상호작용한 기기를 알아내야 한다는 사고 과정을 거칩니다.
  2. 행동(Acting) 단계에서는 결정된 정보를 찾기 위해 실제로 Wikipedia나 기타 외부 데이터베이스에서 검색을 수행합니다. 첫 번째 검색에서 Apple Remote가 Front Row 소프트웨어와 함께 사용된다는 정보를 찾았습니다.
  3. 이후 사고(Reasoning) 단계에서 더 구체적인 기기(예: iMac, Apple TV)를 찾기 위해 추가적인 행동(Acting)이 필요하다고 판단합니다. 이를 바탕으로 다시 검색을 수행하여 추가 정보를 확보합니다.
  4. 이러한 사고와 행동의 반복을 통해 모델은 단순한 텍스트 생성이 아니라 외부 정보와 상호작용하며 더욱 구체적이고 신뢰할 수 있는 답을 도출합니다.

ReAct의 핵심 이점은 이와 같이 동적 사고정보 검색 행동을 결합함으로써, 모델이 단순히 자체 지식에만 의존하지 않고, 외부 환경과의 상호작용을 통해 더욱 정확하고 최신의 답변을 제공할 수 있다는 점입니다​.


기존 방식과의 차이점과 성능 이점

기존의 Chain of Thought(사고의 연쇄) 방식은 모델이 연속된 사고 과정을 통해 답을 도출하는 데 중점을 두었습니다. 하지만 이러한 접근은 내부 지식에만 의존하므로, 현실 세계의 정보를 업데이트하지 못하고 종종 비현실적인 답을 생성하는 문제가 있었습니다​.

반면, ReAct는 사고와 행동을 결합하여 문제를 해결하는데, 이로 인해 모델이 외부 정보(예: Wikipedia API)와 상호작용하면서 더 정확하고 최신 정보를 활용할 수 있습니다. 특히 인간과 같은 해석 가능성신뢰성이 크게 향상되었습니다. 예를 들어, 기존 모델은 잘못된 정보를 지속적으로 참조하는 반면, ReAct는 실시간으로 정보를 업데이트하여 오류를 줄일 수 있습니다​​.


ReAct가 더 효과적인 분야

ReAct는 다양한 분야에 적용될 수 있지만, 특히 지식 집약적인 작업의사 결정 분야에서 뛰어난 성능을 발휘합니다. 예를 들어:

  • 복잡한 질의 응답 시스템: ReAct는 HotPotQA와 같은 다중 문서 기반의 질의 응답에서 강력한 성능을 보여줍니다. LLM이 여러 문서에서 필요한 정보를 검색하고, 이를 바탕으로 정확한 답을 제공하는 데 뛰어납니다.
  • 사실 검증: Fever와 같은 사실 검증 작업에서도 ReAct는 모델이 외부 정보와 상호작용하여, 더 신뢰성 있는 검증 결과를 도출할 수 있습니다.
  • 인터랙티브 환경: ALFWorld와 같은 상호작용 환경에서 모델이 목표를 설정하고 그에 맞춰 행동을 계획, 수정하는 데 도움을 줍니다. 이는 자율 주행, 로봇 공학, 게임 등의 분야에서 매우 유용합니다​​.
728x90

 

728x90
반응형