본문 바로가기

인공지능

(142)
챗GPT가 진화한다! 실시간 영상 이해 기능 추가 최근 오픈AI가 챗GPT의 고급 음성 모드(AVM)에 실시간 영상 이해 기능을 추가하면서 새로운 AI 기술의 지평을 열고 있습니다. 이는 7개월 전 공개된 GPT-4o에서 데모로 소개되었던 기술로, 드디어 실제 서비스에 적용된 것입니다. 이번 업데이트는 챗GPT 플러스 사용자들을 대상으로 점진적으로 배포되고 있으며, 크리스마스를 겨냥한 특별한 산타 목소리 기능도 추가되어 사용자들에게 즐거움을 선사하고 있습니다.실시간 영상 이해, AI의 새로운 가능성이 새로운 기능은 스마트폰 카메라로 사물을 비추면 해당 사물을 인식하고 질문에 답하거나 설명을 제공하는 고도화된 기술입니다. 예를 들어, 복잡한 설정 메뉴를 손쉽게 이해하거나, 어려운 수학 문제를 풀이해주는 데 활용할 수 있습니다. 이런 실시간 비전 AI 기술..
AI 기술의 새로운 도약: 오픈AI 동영상 생성 AI 'Sora' 출시! 오늘, 인공지능(AI) 기술의 선두주자 오픈AI가 동영상 생성 AI 'Sora'를 정식 출시했습니다. 미국과 한국을 포함한 대부분의 국가에서 챗GPT 유료 사용자들이 새로운 기술을 체험할 기회를 얻게 되었는데요, 이번 발표는 오픈AI가 AI 기술의 가능성을 확장하는 데 있어 중요한 이정표로 평가받고 있습니다.Sora: 텍스트에서 영상까지, AI의 새로운 도전소라는 텍스트, 이미지, 그리고 동영상을 입력받아 최대 20초 길이의 짧은 영상을 생성할 수 있는 혁신적인 AI입니다. 생성된 영상에는 자동으로 AI 워터마크와 메타데이터가 포함되며, 제작 시간은 약 1분 정도 소요됩니다.Sora가 제공하는 주요 기능리컷(Recut): 생성한 영상을 자르고 원하는 구간만 활용.리믹스(Remix): 기존 영상을 수정하여..
구글의 새로운 AI 혁신: Gemini 2.0와 AI 에이전트 시대의 시작 구글이 AI 기술의 새로운 장을 열며, 차세대 인공지능 모델인 Gemini 2.0을 공개했습니다. 이를 기반으로 한 AI 에이전트 및 새로운 멀티모달 기능들은 사용자 경험을 혁신적으로 변화시킬 준비를 마쳤습니다. 이번 발표는 특히 스마트 안경에 AI 개인 비서를 탑재하는 계획을 포함하며, AI 기술이 일상 속으로 더욱 깊이 스며들게 될 미래를 예고합니다.Gemini 2.0: 가장 유능한 멀티모달 AI 모델Gemini 2.0은 이전 버전인 Gemini 1.0 및 1.5와 비교해 더욱 발전된 성능과 기능을 제공합니다. 특히, 이미지, 오디오, 동영상과 같은 멀티모달 입력과 출력 기능을 통해 인간과 유사한 자연스러운 상호작용이 가능해졌습니다. 다음은 주요 특징입니다:멀티모달 지원: 텍스트, 이미지, 비디오, ..
오픈소스 AI 모델 트렌드: 가장 인기 있고 많이 다운로드된 모델은? 요즘 AI와 머신러닝 분야에서는 오픈소스 모델들이 큰 주목을 받고 있습니다. 많은 기업과 개발자들이 오픈소스 모델을 활용하여 혁신적인 솔루션을 만들어내고 있는데요, 그중에서도 어떤 모델이 가장 인기 있고, 어떤 모델이 가장 많이 다운로드되었는지 궁금하지 않으신가요?이 흥미로운 정보를 한눈에 확인할 수 있는 사이트가 있어 소개합니다. 이 사이트는 오픈소스 AI 모델의 인기와 다운로드 순위를 집계하여 트렌드를 파악할 수 있도록 도와줍니다.가장 인기 있는 오픈소스 모델현재 가장 인기 있는 모델은 다음과 같습니다:Meta LLaMA 3 8BMeta LLaMA 3 8B InstructMeta LLaMA 3.1 8B Instruct이 모델들은 Meta에서 개발한 LLaMA 시리즈로, 강력한 성능과 사용 용이성 덕분..
GPT Pro – AI 혁신의 최전선, 월 28만원의 가치 2024년 12월 5일, OpenAI는 ‘12 Days of OpenAI’ 이벤트의 첫날에 새로운 프리미엄 구독 서비스인 ‘ChatGPT Pro’를 공개했습니다. 월 200달러(약 28만원)라는 고가의 구독료에도 불구하고, ChatGPT Pro는 전문가들을 위한 최상의 AI 경험을 약속하며 큰 관심을 받고 있습니다. 기존 Plus 요금제의 한계를 뛰어넘는 ChatGPT Pro의 주요 특징과 성능을 살펴보겠습니다.ChatGPT Pro란 무엇인가요?ChatGPT Pro는 OpenAI의 최상위 구독 서비스로, 파워 유저와 전문가들이 복잡한 문제를 효율적으로 해결할 수 있도록 설계되었습니다. 특히, OpenAI의 최신 AI 모델인 ‘o1 프로 모드’를 독점적으로 사용할 수 있다는 점이 큰 특징입니다. o1 프로..
Ollama의 혁신적인 구조화된 출력 기능: AI 신뢰성의 미래를 열다 Ollama는 이제 구조화된 출력을 지원하여, JSON 스키마로 정의된 특정 형식에 모델의 출력을 제약할 수 있습니다. 이 기능은 모델의 출력이 사전에 정의된 형식에 엄격히 따르도록 보장함으로써 AI 모델의 신뢰성과 일관성을 크게 향상시킵니다. Python 및 JavaScript 라이브러리의 업데이트를 통해 구조화된 출력을 구현하는 것이 그 어느 때보다 쉬워졌습니다.구조화된 출력이란 무엇인가요?구조화된 출력은 개발자가 모델 응답에서 정밀성과 예측 가능성을 달성할 수 있게 합니다. 주요 장점은 다음과 같습니다:문서에서 데이터 파싱: 비구조화된 텍스트에서 구조화된 정보를 손쉽게 추출할 수 있습니다.이미지 데이터 추출: 이미지의 객체, 색상, 장면을 포함한 상세한 분석 결과를 얻을 수 있습니다.구조화된 언어 ..
Amazon Nova: AWS 기반 차세대 AI 모델의 혁신 AWS(Amazon Web Services)가 새롭게 선보인 차세대 인공지능(AI) 모델, Amazon Nova를 소개합니다. Amazon Nova는 Bedrock 플랫폼과의 완벽한 통합을 통해 세계 최고 수준의 AI 성능과 업계 선도적인 가격 경쟁력을 제공합니다. AWS 사용자라면 누구나 손쉽게 Amazon Nova를 활용하여 다양한 AI 서비스를 빠르게 구현할 수 있습니다.Amazon Nova란 무엇인가?Amazon Nova는 **최신 기반 모델(Foundation Models)**로, 텍스트 분석, 이미지 및 비디오 이해, 영상 생성 등 다양한 AI 작업에서 뛰어난 성능을 발휘합니다. Amazon Nova는 비용을 절감하고 지연 시간을 줄이며, 고객 맞춤형 AI 애플리케이션 구축에 필요한 유연성과 ..
PaliGemma 2: 새로운 시대를 여는 비전 언어 모델 Google이 새롭게 발표한 비전 언어 모델, PaliGemma 2를 소개합니다! PaliGemma 2는 이전 모델인 PaliGemma의 혁신을 계승하면서도 더 강력한 기능과 유연성을 제공합니다. 최신 이미지 인코더 SigLIP과 텍스트 디코더 Gemma 2를 결합한 이 모델은 비전 언어 모델의 새로운 기준을 제시합니다.PaliGemma 2의 주요 특징다양한 모델 크기PaliGemma 2는 3B, 10B, 28B의 세 가지 모델 크기로 제공되며, 다양한 입력 해상도(224x224, 448x448, 896x896)를 지원합니다. 이는 사용 사례에 맞게 품질과 효율성 사이에서 최적의 균형을 찾을 수 있는 유연성을 제공합니다.강화된 학습 데이터PaliGemma 2는 방대한 데이터셋(WebLI, CC3M-35L..