인공지능 (201) 썸네일형 리스트형 ARC-AGI: 인간과 인공지능의 지능을 평가하는 새로운 척도 인공지능과 인간의 지능을 비교할 수 있는 획기적인 벤치마크로 주목받고 있는 **Abstraction and Reasoning Corpus (ARC)**를 소개합니다. ARC는 인간의 일반적이고 유연한 지능을 모델링하고 평가하기 위해 설계된 과제로, 인공지능 시스템이 얼마나 인간처럼 사고할 수 있는지 테스트하는 데 목적이 있습니다. 이번 블로그에서는 ARC의 구조, 활용법, 그리고 인간과 AI 간의 지능 비교 가능성에 대해 다루겠습니다.ARC란 무엇인가요?ARC는 프랑스의 저명한 인공지능 연구자인 François Chollet가 제안한 데이터셋으로, 다음과 같은 특징을 가지고 있습니다:일반 인공지능 벤치마크: ARC는 특정 문제를 푸는 데 특화된 알고리즘이 아니라, 인간처럼 유연하고 창의적으로 문제를 해결.. 세계 최대 오픈 소스 LLM, 딥시크-V3 출시! GPT-4o를 넘어서는 혁신? 중국의 인공지능 기업 딥시크가 역대 최대 규모의 오픈 소스 대형언어모델(LLM) ‘딥시크-V3(DeepSeek-V3)’를 공개했습니다. 이번 발표는 AI 기술 생태계에 큰 반향을 일으키며, 오픈AI의 GPT-4o를 뛰어넘는 성능을 자랑한다고 강조해 주목받고 있습니다.이번 포스팅에서는 딥시크-V3의 주요 특징과 성능, 그리고 기술적 시사점에 대해 알아보겠습니다.딥시크-V3의 주요 특징1. 역대 최대 규모의 매개변수딥시크-V3는 총 6710억 개의 매개변수를 가지고 있으며, 이는 메타의 ‘라마 3.1 405B’의 1.5배 이상 큰 규모입니다. 현재까지 공개된 오픈 소스 모델 중 가장 방대한 크기를 자랑하며, 다양한 텍스트 작업에서 강력한 성능을 발휘합니다.2. 효율적인 ‘전문가 혼합(MoE)’ 방식딥시크-V.. AI Agents 평가의 3가지 접근법: LLM과 어떻게 다른가? 최근 인공지능 분야에서는 LLM(대규모 언어 모델, Large Language Model) 평가를 넘어, AI Agents의 평가 방법에 대한 논의가 활발히 이루어지고 있습니다. AI Agents는 단순히 텍스트를 생성하는 LLM과는 달리, 다양한 액션 시퀀스를 실행해야 하며, 이해–계획–실행이라는 복잡한 단계를 포함합니다. 이러한 특성 때문에 AI Agents의 평가 방식은 LLM에 비해 더욱 까다롭습니다. 이 글에서는 AI Agents 평가를 위한 세 가지 주요 접근법을 살펴봅니다.1. 결과물 평가: MLE-benchAI Agents 평가의 가장 기본적인 접근법은 에이전트가 생성한 결과물을 평가하는 것입니다. 이 접근법은 MLE-bench(Machine Learning Engineering Bench.. AI 에이전트의 모든 것: 가상 비서에서 지능형 의사 결정자로의 진화 최근 AI 분야에서는 단순한 챗봇을 넘어선 AI 에이전트라는 개념이 급부상하고 있습니다. 이는 텍스트 기반 대화를 넘어 환경을 이해하고 학습하며 독립적으로 작업을 수행할 수 있는 지능형 시스템을 의미합니다. 이러한 AI 에이전트는 기업과 개인의 생산성을 극대화하며, 복잡한 문제 해결과 의사결정을 지원하는 도구로 자리 잡고 있습니다. 이 과정에서 AI 에이전트는 기존의 기술적 한계를 넘어 새로운 가능성을 열어주는 핵심적인 역할을 하고 있습니다.AI 에이전트는 단순히 자동화된 시스템을 넘어, 사용자의 요구를 실시간으로 이해하고 이에 맞는 적응적 행동을 취함으로써 기술의 사용자 경험을 혁신합니다. 예를 들어, 고객 서비스와 같은 분야에서 AI 에이전트는 단순한 문제 해결을 넘어 고객의 맥락을 이해하고, 상황에.. Google Cloud가 제안하는 2025년, AI가 비즈니스를 바꾸는 5가지 트렌드 2025년, AI가 비즈니스를 바꾸는 5가지 트렌드인공지능(AI)은 이미 우리의 삶을 변화시키고 있습니다. 개인화된 스트리밍 추천부터 하루를 계획해주는 AI 비서까지, AI는 점점 더 중요한 역할을 하고 있습니다. 그리고 비즈니스 세계에서도 AI의 영향력은 더욱 커질 예정입니다. 2025년은 기업들이 운영 방식, 경쟁 전략, 그리고 혁신 접근법에서 큰 변화를 경험하는 중요한 해가 될 것입니다. 최근 Google Cloud가 발표한 "2025 AI 비즈니스 트렌드 보고서"를 통해 향후 AI가 비즈니스에 어떤 영향을 미칠지 살펴보겠습니다.1. 멀티모달 AI: 더 깊은 맥락을 제공하다멀티모달 AI는 텍스트, 이미지, 오디오, 비디오 등 다양한 데이터를 처리할 수 있는 기술로, 보다 직관적인 상호작용과 높은 정.. AI와 함께하는 단위 테스트 작성: GitHub Copilot으로 생산성 높이기 개발자라면 누구나 공감할 것입니다. 단위 테스트를 작성하는 일이 얼마나 중요하지만, 동시에 얼마나 반복적이고 지루할 수 있는지 말이죠. 하지만 단위 테스트는 코드 품질을 높이고, 잠재적인 버그를 미리 잡아내며, 리팩터링을 더 쉽게 만들어줍니다. 특히, 테스트 주도 개발(Test-Driven Development, TDD)을 실천할 때 단위 테스트는 필수적인 도구입니다.이제 GitHub Copilot이라는 강력한 AI 도구가 이 과정을 훨씬 더 빠르고 효율적으로 만들어줍니다. GitHub Copilot은 단위 테스트 생성뿐 아니라, 개발 전반에서 생산성을 높이는 데 도움을 주는 AI 코딩 어시스턴트입니다. 이번 블로그에서는 GitHub Copilot을 활용해 단위 테스트를 더 쉽게 작성하는 방법과 이 도구.. 12 Days of OpenAI 요약 정리 OpenAI가 최근 12일 동안 발표한 일련의 혁신적인 업데이트가 AI 기술의 새로운 시대를 열었습니다. 이번 발표는 새로운 AI 모델, 기능 확장, 통합 서비스 등 다양한 분야를 아우르며 사용자 경험을 한 단계 끌어올릴 계획을 담고 있습니다. 다음은 이번 업데이트의 주요 내용입니다.Day 1: 새로운 o1 추론 모델 및 ChatGPT Pro 출시OpenAI는 o1 추론 모델의 완전한 버전을 공개하며, Plus 구독자($20/월)에게는 제한적으로, Pro 구독자($200/월)에게는 모든 기능과 Advanced Voice Mode 무제한 사용을 제공하기 시작했습니다. 이 모델은 더 많은 컴퓨팅 리소스를 활용하여 복잡한 문제를 정교하게 해결하며, OpenAI의 기술력을 한 단계 끌어올린 모델입니다.함께 공개.. 중국 AI 산업의 전략적 진화: 바이트댄스의 멀티모달 모델 혁신과 가격 경쟁 최근 중국 AI 산업은 극심한 경쟁과 급속한 기술 발전 속에서 대규모 재편을 겪고 있습니다. 이러한 맥락에서, 바이트댄스(Bytedance)는 새로운 멀티모달 모델 "두바오 영상 이해 모델(Doubao Vision Understanding Model)"을 발표하며 시장 판도를 흔들고 있습니다. 2023년 10월 18일 포스 컨퍼런스에서 발표된 이 모델은 1000토큰당 0.003위안이라는 초저가로 제공되며, 이는 기존 업계 평균 대비 85% 이상 저렴한 가격입니다. 이러한 가격 전략은 단순한 시장 점유를 넘어 AI 기술의 대중화를 목표로 하고 있음을 시사합니다.AI 기술 생태계에서의 무료화 경쟁: 알리바바와 바이트댄스의 사례AI 생태계에서의 "무료화" 경쟁은 단순한 가격 인하 이상의 전략적 함의를 지닙니다.. 이전 1 2 3 4 5 6 7 8 ··· 26 다음