전체 글 (3172) 썸네일형 리스트형 Flue: 헤드리스 자율 에이전트를 위한 TypeScript 샌드박스 프레임워크 정리 이 글은 TypeScript 기반 샌드박스 에이전트 프레임워크 Flue가 무엇인지, 어떤 배경에서 등장했는지, 그리고 어떤 아키텍처와 특장점을 통해 자율 에이전트 개발을 표준화하려는지 정리한 글입니다.단순한 챗봇 수준을 넘어, 코딩 에이전트가 스스로 계획하고 파일을 작성하며 문제를 해결하는 전 과정을 100% 헤드리스·프로그래머블 방식으로 구현하려는 Flue의 접근 방식을 중심으로 설명합니다.Flue란 무엇인가**Flue**는 Claude Code나 Codex와 같은 코딩 에이전트의 사용 경험을 순수 코드 기반으로 재구성한 에이전트 하네스 프레임워크입니다.TUI나 GUI, 혹은 사람 운영자를 전제로 하지 않고, TypeScript 코드만으로 에이전트를 구성해 자율적으로 문제를 해결하고 작업을 완료하도록 .. Artificial Analysis 코딩 에이전트 벤치마크로 본 모델·하네스 조합의 실제 성능 차이 이 글은 Artificial Analysis가 공개한 코딩 에이전트 벤치마크 결과를 바탕으로, 단순히 “어떤 모델이 좋은가”를 넘어 모델·하네스·설정 조합이 실제 성능과 비용, 속도에 어떤 차이를 만드는지를 정리한 기술 분석 글입니다.코딩 에이전트를 도입하거나 비교 검토 중인 독자라면, 이번 벤치마크가 왜 기존 모델 중심 평가와 다른 의미를 가지는지, 그리고 어떤 관점으로 선택해야 하는지 한눈에 파악할 수 있도록 구성했습니다.코딩 에이전트 벤치마크의 배경과 의미AI 코딩 에이전트는 이제 모델 하나만으로 성능을 판단하기 어려운 단계에 들어섰습니다. 같은 모델이라도 어떤 하네스(harness)에서, 어떤 기본 설정으로 실행하느냐에 따라 결과가 크게 달라집니다.Artificial Analysis는 이러한 현실.. Qwen3.7-Max 에이전트 중심 초대형 AI 모델의 기술적 특징과 의미 이 글은 Qwen3.7-Max라는 최신 초대형 AI 모델이 어떤 배경에서 등장했고, 기존 대규모 언어 모델과 무엇이 다른지, 그리고 왜 ‘에이전트 중심 모델’이라는 평가를 받는지를 기술적으로 정리한 글입니다.단순한 질의응답 모델을 넘어, 실제 업무 환경에서 장시간 자율적으로 문제를 해결하고 성능을 스스로 개선하는 AI가 어떤 방식으로 구현됐는지를 중심으로 살펴봅니다.Qwen3.7-Max란 무엇인가Qwen3.7-Max는 코딩, 디버깅, 사무 자동화, 장기 자율 실행을 목표로 설계된 에이전트 중심 독점 AI 모델입니다.기존 LLM이 “한 번의 질문에 대한 답변”에 초점을 맞췄다면, Qwen3.7-Max는 여러 단계의 작업을 스스로 계획하고, 도구를 호출하며, 결과를 평가하고 개선하는 전 과정을 수행하는 것을.. 생성형 AI로 테스트 커버리지를 높이는 자동화 도구, Qodo Cover 정리 이 글은 생성형 AI를 활용해 코드 테스트 커버리지를 효율적으로 높여주는 Qodo Cover에 대해 정리한 기술 블로그입니다. Qodo Cover가 어떤 배경에서 등장한 도구인지, 어떤 구성 요소와 특징을 가지고 있는지, 그리고 실제로 어떻게 사용할 수 있는지를 입력된 정보를 기반으로 쉽게 풀어 설명합니다. 자동 테스트 생성과 코드 품질 개선에 관심 있는 개발자라면 전체 흐름을 이해하는 데 도움이 될 것입니다.Qodo Cover란 무엇인가Qodo Cover는 생성형 AI를 활용해 테스트 코드를 자동으로 생성하고, 이를 통해 코드 커버리지를 점진적으로 확장하는 데 목적을 둔 도구입니다. 주로 유닛 테스트 생성을 중심으로 설계되었으며, 로컬 CLI 환경 또는 GitHub CI 워크플로우에서 실행할 수 있습니.. LLM 평가 프레임워크 DeepEval 개념과 주요 기능 정리 이 글에서는 대규모 언어 모델(LLM) 기반 애플리케이션의 품질을 체계적으로 평가할 수 있는 오픈소스 프레임워크 **DeepEval**에 대해 정리합니다.LLM을 활용한 챗봇, RAG 파이프라인, 에이전트 시스템을 개발하다 보면 “응답이 정말 정확한가?”, “할루시네이션은 없는가?”, “의도한 목표를 제대로 수행했는가?”와 같은 질문에 답해야 합니다. DeepEval은 이런 질문에 대해 정량적이고 재현 가능한 평가 방법을 제공하는 도구입니다.본 글에서는 DeepEval의 배경, 핵심 개념, 주요 평가 지표, 그리고 실제 사용 흐름까지 차근히 살펴봅니다.DeepEval이 등장한 배경LLM 애플리케이션은 일반적인 소프트웨어 테스트 방식으로 검증하기 어렵습니다. 출력이 고정되지 않고, 프롬프트나 모델 버전에 .. AI 코딩 시대의 복잡성 래칫과 90% 테스트 커버리지가 중요한 이유 이 글은 AI 에이전트와 함께 대규모 코드를 작성한 실제 경험을 바탕으로, 왜 AI 코딩 시대에 90% 테스트 커버리지가 새로운 기준이 되는지 설명합니다. 단순히 개발 속도가 빨라졌다는 이야기가 아니라, 테스트·문서·평가가 누적되며 코드 품질이 되돌아가지 않도록 만드는 복잡성 래칫(Complexity Ratchet)이라는 개념을 중심으로, 기존 소프트웨어 공학 방식과 무엇이 달라졌는지를 정리합니다. AI 코딩을 도입했거나 고려 중인 개발자라면, 테스트 전략을 어떻게 다시 생각해야 하는지에 대한 힌트를 얻을 수 있습니다.AI 에이전트와 대규모 코드 작성의 실제 경험이 논의의 출발점은 Y Combinator의 CEO인 Garry Tan이 공유한 장문의 에세이입니다. 그는 지난 1년간 AI 에이전트와 함께 두.. Needle: 소비자 디바이스를 위한 초소형 AI 모델과 Simple Attention Network 구조 정리 이 글은 초소형 AI 모델 Needle이 무엇인지, 어떤 구조와 배경에서 만들어졌는지, 그리고 실제로 어떻게 사용하고 파인튜닝할 수 있는지를 정리한 기술 블로그입니다. Needle은 대규모 언어 모델을 증류해 만든 2,600만 파라미터 규모의 모델로, 로컬 PC나 맥에서도 직접 실행과 학습이 가능하다는 점이 핵심 특징입니다. 본문에서는 Needle의 아키텍처, 성능 특성, 활용 방식, 그리고 왜 이 모델이 ‘소비자 디바이스용 AI’라는 방향성을 갖는지 차근차근 살펴봅니다.Needle 프로젝트 개요와 등장 배경Needle은 대형 모델인 Gemini 3.1을 기반으로 증류(distillation)해 만든 Simple Attention Network(SAN) 실험 모델입니다. 목표는 명확합니다.스마트폰, 워치.. Hybrid Graph RAG와 LadybugDB로 살펴보는 벡터와 그래프의 결합 이 글은 기존 벡터 기반 RAG(Retrieval-Augmented Generation)의 한계를 짚고, 그래프 구조를 결합한 Hybrid Graph RAG가 어떻게 그 문제를 해결하는지 설명합니다. 특히 벡터 검색, 그래프 질의, 그래프 알고리즘, 키워드 검색을 하나의 데이터베이스에서 통합 제공하는 **LadybugDB**를 중심으로, 아키텍처 구성 방식과 실제 구현 흐름, 그리고 어떤 상황에서 이 접근이 효과적인지까지 정리합니다.Flat RAG의 구조적 한계기존의 표준 RAG는 문서를 조각으로 나눈 뒤 임베딩 벡터로 변환하고, 벡터 유사도 기반으로 상위 결과를 검색하는 방식입니다. 단순한 사실 조회에는 효과적이지만, 다음과 같은 질문에서는 한계를 드러냅니다.여러 문서를 연결해야 답이 나오는 질문원인과.. Korean Law MCP: AI 시대를 위한 대한민국 법령·판례 통합 분석 플랫폼 정리 이 글은 Korean Law MCP라는 기술 프로젝트를 중심으로, 대한민국 법령·판례 데이터를 AI 환경에서 어떻게 더 정확하고 효율적으로 활용할 수 있는지를 정리한 글입니다.법제처 Open API를 기반으로 방대한 법률 데이터를 하나의 MCP 서버와 CLI로 통합하고, LLM 환각 방지, 조문 영향 분석, 시점 비교, 시민 실행 가이드까지 제공하는 구조와 핵심 기능을 이해하기 쉽게 설명합니다. 법률 AI 서비스, 개발자, 연구자, 실무자 모두에게 의미 있는 기술적 시사점을 다룹니다.Korean Law MCP란 무엇인가Korean Law MCP는 법제처가 제공하는 41개 Open API를 기반으로, 이를 17개(최종적으로는 15개 핵심) 도구로 재구성한 MCP(Model Context Protocol) .. Google Universal Cart로 보는 에이전틱 커머스의 현재와 미래 이 글은 Google이 Google I/O 2026에서 공개한 Universal Cart(유니버설 카트)를 중심으로, 에이전틱 커머스(agentic commerce)가 무엇인지, 어떤 기술적 배경 위에서 동작하는지, 그리고 사용자와 커머스 생태계에 어떤 변화를 가져올지를 정리한 IT 기술 블로그입니다. Universal Cart, Universal Commerce Protocol, Agent Payments Protocol이라는 세 가지 핵심 요소를 통해 구글이 그리고 있는 차세대 쇼핑 경험을 이해하는 데 초점을 맞춥니다.에이전틱 커머스란 무엇인가에이전틱 커머스는 사용자를 대신해 AI 에이전트가 탐색, 비교, 판단, 결제까지 수행하는 상거래 방식을 의미합니다. 단순히 상품을 추천하는 수준을 넘어, 사용자.. 이전 1 ··· 5 6 7 8 9 10 11 ··· 318 다음