분류 전체보기 (3021) 썸네일형 리스트형 LLM의 자기 지식으로 RAG 성능을 높이는 SKILL-RAG 프레임워크 정리 이 글에서는 대규모 언어 모델(LLM)의 자기 지식(self-knowledge) 을 활용해 기존 RAG(Retrieval-Augmented Generation)의 한계를 개선한 새로운 프레임워크 SKILL-RAG(Self-Knowledge Induced Learning and Filtering for RAG) 논문을 정리합니다.SKILL-RAG는 검색된 문서 중 불필요하거나 관련 없는 정보를 문장 단위로 정밀하게 제거해, 환각(hallucination)을 줄이고 컨텍스트 활용 효율을 크게 높이는 접근입니다. 본문에서는 SKILL-RAG가 등장한 배경, 핵심 개념과 방법론, 문서 필터링 방식, 그리고 실험 결과를 중심으로 기술 내용을 쉽게 풀어 설명합니다.RAG 시스템의 한계와 문제 인식기존 RAG 시스템.. Graph-of-Agents(GoA): 멀티 에이전트 LLM 협업의 효율성과 성능을 동시에 높이는 그래프 기반 프레임워크 이 글은 LLM(Large Language Model) 기반 다중 에이전트 시스템에서 반복적으로 제기되어 온 에이전트 선택, 에이전트 간 통신, 응답 통합의 비효율성 문제를 해결하기 위해 제안된 Graph-of-Agents(GoA) 프레임워크를 정리한 글입니다.기존 Mixture-of-Agents(MoA)가 가진 구조적 한계를 짚어보고, GoA가 어떤 방식으로 이를 개선했는지, 그리고 실제 실험 결과에서 왜 더 적은 에이전트로도 더 높은 성능을 낼 수 있었는지를 기술적 관점에서 쉽게 풀어 설명합니다.멀티 에이전트 LLM 협업의 배경과 문제의식최근 LLM의 수와 종류가 급격히 늘어나면서, 단일 모델이 아닌 여러 LLM을 협업시키는 구조가 자연스럽게 등장했습니다. 서로 다른 도메인 전문성을 가진 모델을 함께.. 대규모 언어 모델에서 발생하는 잠재적 학습 현상과 AI 안전성에 대한 시사점 이 글은 대규모 언어 모델(LLM)이 다른 모델의 출력 데이터를 기반으로 학습할 때 발생하는 잠재적 학습(subliminal learning) 현상을 다룹니다. 겉으로 보기에는 의미적으로 무관한 데이터임에도 불구하고, 교사 모델의 행동적 특성이 학생 모델로 전이되는 이유와 그 메커니즘을 정리하고, 이러한 현상이 AI 안전성과 신뢰성 평가에 어떤 영향을 주는지 살펴봅니다. 연구에서 사용된 실험 구조, 핵심 결과, 그리고 개발·운영 관점에서의 시사점을 중심으로 내용을 정리합니다.잠재적 학습이란 무엇인가잠재적 학습은 학생 모델이 교사 모델의 출력을 학습하는 과정에서, 훈련 데이터에 명시적으로 드러나지 않은 행동적 특성까지 함께 습득하는 현상을 의미합니다.여기서 중요한 점은 전이되는 특성이 데이터의 의미적 내용.. claude-obsidian으로 만드는 자율 진화형 지식 위키 이 글은 claude-obsidian이라는 오픈소스 프로젝트를 중심으로, Claude와 Obsidian을 결합해 지식을 자동으로 축적·정리·유지하는 방법을 정리한 IT 기술 소개 글입니다. 단순한 AI 메모 도구를 넘어, 읽은 모든 자료와 질문을 연결해 스스로 진화하는 위키를 만드는 구조와 특징, 그리고 실제 사용 흐름까지 입력된 정보를 기반으로 설명합니다.claude-obsidian이란 무엇인가claude-obsidian은 Claude를 지식 동반자로 활용해 Obsidian 볼트 전체를 하나의 지속적으로 성장하는 위키로 운영하는 프로젝트입니다.자료를 추가할수록 지식이 누적되고, 질문할수록 기존에 읽은 모든 맥락을 바탕으로 답변이 만들어집니다. 이 과정은 수동 정리 없이 자동으로 진행됩니다.이 프로젝트는.. Symphony: 이슈 트래커를 항상 동작하는 코딩 에이전트 오케스트레이터로 만드는 오픈소스 스펙 이 글은 코딩 에이전트를 “직접 관리해야 하는 도구”가 아니라, “항상 돌아가는 시스템”으로 바꾸기 위해 등장한 오픈소스 스펙 Symphony에 대한 정리입니다.Symphony는 이슈 트래커(예: Linear)를 중심에 두고, 각 작업(Task)에 코딩 에이전트를 자동으로 할당·실행·관리하는 오케스트레이션 방식입니다.기존 인터랙티브 에이전트 사용의 한계를 어떻게 해결했는지, Symphony의 구조와 동작 방식, 그리고 실제로 어떤 변화가 있었는지를 중심으로 살펴봅니다.코딩 에이전트가 가진 근본적인 한계: 컨텍스트 스위칭코딩 에이전트는 빠르고 강력하지만, 대부분 인터랙티브 도구라는 한계를 갖고 있습니다.여러 Codex 세션을 동시에 열어두고각 세션에 작업을 지시하고중간 결과를 확인하며 방향을 수정하는 방식.. 하네스 엔지니어링: AI 모델보다 중요한 것은 작업 환경 설계다 이 글은 애디 오스마니가 정리한 하네스 엔지니어링(Harness Engineering) 개념을 바탕으로, 왜 오늘날 코딩 AI의 성능이 모델 자체보다 모델을 둘러싼 작업 환경 설계에 의해 결정되는지를 정리한 글입니다.GPT가 더 똑똑한지, 클로드가 더 안정적인지를 비교하는 논의에서 한 걸음 더 나아가, 실제 현장에서 “일하는 AI”를 만드는 데 필요한 핵심 요소와 그 의미를 살펴봅니다.모델 중심 사고의 한계와 하네스 엔지니어링의 등장지난 2년간 업계의 관심은 거의 전부 “어떤 AI 모델이 더 좋은가”에 쏠려 있었습니다.하지만 오스마니의 문제 제기는 분명합니다.같은 모델을 써도, 어떤 환경에서 어떻게 쓰느냐에 따라 결과는 완전히 달라진다.이 관점을 한 줄로 정리한 사람이 바로 비브 트리베디입니다.그의 정의.. SWE-bench Verified가 프런티어 코딩 역량 지표로서 한계에 도달한 이유 이 글은 자율 소프트웨어 엔지니어링 모델의 대표적 평가 지표였던 SWE-bench Verified가 왜 더 이상 프런티어 수준의 코딩 역량을 제대로 측정하지 못하게 되었는지를 다룹니다. 벤치마크의 설계 결함, 데이터 오염 문제, 점수 해석의 한계까지 실제 분석 결과를 기반으로 정리하고, 그에 따라 평가 기준이 어떻게 변화하고 있는지도 함께 살펴봅니다.SWE-bench Verified란 무엇인가SWE-bench는 2023년 공개된 벤치마크로, 실제 오픈소스 Python 리포지터리에서 발생한 GitHub 이슈와 해당 PR을 한 쌍으로 구성한 평가 세트입니다.모델은 이슈 설명과 수정 전 코드만 주어진 상태에서 코드 변경을 생성해야 하며, 수정 후 모든 테스트를 통과해야 정답으로 인정됩니다.기존 SWE-benc.. GPT 5.5와 Opus 4.7 코딩 성능 비교: 현재 개발자 선택의 기준은 무엇인가 이 글은 개발자 커뮤니티에서 활발히 논의되고 있는 GPT 5.5와 Opus 4.7의 코딩·프로그래밍 성능 비교 내용을 정리한 글입니다. 실제 사용자 경험을 기반으로 안정성, 정밀도, 프론트엔드/UI 작업 적합성, 사용 제한과 가격 구조까지 폭넓게 다루며, 단순한 성능 우열을 넘어 개발자가 어떤 기준으로 모델을 선택해야 하는지 살펴봅니다.커뮤니티 논의 배경최근 Reddit의 r/codex 커뮤니티에서는 GPT 5.5와 Opus 4.7을 실제 개발 작업에 사용해 본 경험을 공유하는 토론이 진행되었습니다. 토론의 핵심은 “현재 시점에서 코딩과 프로그래밍에 더 적합한 모델은 무엇인가”였으며, 다수의 사용자가 GPT 5.5의 우위를 지지하는 분위기였습니다.전반적인 코딩·프로그래밍 성능 비교커뮤니티 의견을 종합하면.. 이전 1 2 3 4 ··· 378 다음