
최근 대조적 언어-이미지 모델인 CLIP가 시각 표현 학습에서 표준 선택으로 자리매김했지만, 이는 언어 감독을 통해 의미론적 근거를 통합함으로써 텍스트 의존성을 도입한다. Meta AI는 이러한 제약을 해결하기 위해 Web-SSL을 발표했다.

최근 대조적 언어-이미지 모델인 CLIP가 시각 표현 학습에서 표준 선택으로 자리매김했지만, 이는 언어 감독을 통해 의미론적 근거를 통합함으로써 텍스트 의존성을 도입한다. Meta AI는 이러한 제약을 해결하기 위해 Web-SSL을 발표했다.
로우보트는 다중 에이전트 시스템의 구축, 디버깅, 배포를 가속화하는 오픈 소스 IDE로, OpenAI Agents SDK를 기반으로 하며 MCP 서버와 연결되어 다중 에이전트 AI 워크플로를 구축할 수 있다.
OpenAI는 gpt-image-1 모델을 기반으로 한 이미지 생성 API를 공식으로 출시했다. 이 런칭은 ChatGPT의 다중 모달 기능을 개발자들에게 제공함으로써 이미지 생성에 프로그래밍적 접근을 가능케 하며, 지능적 디자인 도구, 창의적 애플리케이션, 다중 모달 에이전트 시스템 구축을 위한 필수 단계를 제공한다.
씨티은행의 최신 ‘에이전틱 AI 금융 및 ‘나를 대신해 해라’ 경제’ 보고서에서는 금융 서비스에서 진행 중인 중요한 패러다임 변화를 탐구한다. 이 보고서는 룰 기반 지침에 의존하는 기존 AI 시스템과는 다르게, 에이전틱 AI는 자율성을 갖추어 직접적인 인간 개입 없이 미리 예방적으로 행동하고 의사 결정을 내리며 다단계 워크플로우를 실행한다.
Crawl4AI를 사용해 Python 기반의 현대적인 웹 크롤링 툴킷을 활용하여 구조화된 데이터를 추출하는 방법을 소개하는 튜토리얼. asyncio의 비동기 I/O, HTTP 요청을 위한 httpx, 그리고 Crawl4AI의 AsyncHTTPCrawlerStrategy를 이용하여 headless 브라우저의 오버헤드를 우회하면서 복잡한 HTML을 파싱한다.
긴 문맥을 다루는 데 LLM의 성능을 평가하는 것은 중요하며, 최근의 LLM인 Gemini-1.5, GPT-4, Claude-3.5, Qwen-2.5 등은 강력한 추론 능력을 유지하면서 문맥 길이의 한계를 늘렸다. 이러한 능력을 평가하기 위해 ∞Bench, LongBench, L-Eval과 같은 벤치마크가 개발되었다.
최근 대형 언어 모델의 발전으로 소프트웨어 코드를 생성, 수정, 이해하는 AI 기반 코딩 에이전트 개발이 가능해졌으나, 이러한 시스템의 평가는 주로 파이썬에 국한된 합성 또는 범위가 제한된 벤치마크로 제한되어 있습니다. AWS가 SWE-PolyBench를 소개하며 이 문제에 대처하고 있습니다.
Xata Agent는 PostgreSQL 데이터베이스를 위한 사이트 신뢰성 엔지니어로 구축된 오픈 소스 AI 어시스턴트입니다. 느린 쿼리, CPU 및 메모리 스파이크, 비정상적인 연결 수 등의 신호를 지속적으로 모니터링하여 장애로 확대되기 전에 문제를 감지합니다.
NVIDIA가 세밀한 이미지 및 비디오 캡션을 위한 다중 모달 LLM 모델인 ‘Describe Anything 3B’를 발표했다. 시각-언어 모델에서 이미지나 비디오의 특정 영역을 설명하는 것은 어려운 문제인데, 이 모델은 세부적이고 지역별 설명을 생성하는 데 탁월한 성과를 보여준다.

그동안 딥러닝 모델이 기억에서 일반화로의 지연된 전환을 보이는 현상인 ‘그록킹’에 대한 연구가 늘어나고 있는데, 마이크로소프트 연구원들이 옵티마이저가 이 지연된 일반화에 미치는 영향을 탐구하며 Muon Optimizer가 트랜스포머의 이해를 혁신적으로 가속화하는 것을 발견했다.

대부분의 대형 언어 모델(LLMs)은 감독된 데이터 파이프라인에 근본적으로 의존하고 있지만, Tsinghua 대학과 상해 AI 연구소 연구진은 테스트 시간 강화 학습(TTRL)을 도입하여 레이블이 없는 데이터를 사용하여 자가 진화 언어 모델을 가능하게 했다. 이는 감독 없이 학습이 가능한 새로운 방법이다.
Nari Labs가 Apache 2.0 라이센스로 1.6조 파라미터 TTS 모델 ‘Dia’를 공개하여 사용자 기기에서 리얼타임 음성 복제 및 표현력 있는 음성 합성을 가능케 함.
VoltAgent는 TypeScript 기반의 오픈 소스 프레임워크로, 모듈화된 빌딩 블록과 자율적인 에이전트를 위한 추상화를 제공하여 AI 주도 애플리케이션의 생성을 간소화합니다. 대규모 언어 모델 (LLMs), 도구 통합 및 상태 관리와 같은 복잡성을 다루기 위해 핵심 엔진을 제공합니다.
디커플드 디퓨전 트랜스포머는 이미지 생성 작업에서 우수한 성능을 보이며 기존 GAN 및 자기 회귀 아키텍처를 능가한다. 이미지에 점진적으로 노이즈를 추가하고 이 과정을 거꾸로 되돌리는 방식으로 작동하여 데이터 분포를 근사하는 모델을 구현한다.

PydanticAI 라이브러리를 활용해 티켓 보조 프로그램을 만드는 튜토리얼. Pydantic v2 모델로 데이터 규칙 정의, SQLite 데이터베이스에 티켓 저장, Python의 uuid 모듈로 고유 식별자 생성. 티켓 생성 및 상태 확인을 위한 두 개의 에이전트 사용.

물리적 환경에서 신뢰성 있는 지능 시스템을 설계하는 것은 AI의 어려운 과제 중 하나이다. 기존 AI 시스템은 높은 수준의 표현에 의존하는 반면, 실제 세계는 잡음이 많고 예측할 수 없으며 추상화에 저항한다. 물리 지능 연구팀은 이러한 문제를 해결하기 위해 새로운 AI 프레임워크인 π-0.5를 소개했다.

Atla의 강력한 LLM 판사 모델을 Model Context Protocol (MCP)을 통해 노출시키는 Atla MCP 서버가 AI 시스템 개발의 중요한 측면인 LLM 출력의 신뢰성 있는 평가를 지원한다.

Eagle 2.5는 GPT-4o와 같은 비디오 작업에서 8B 매개변수를 사용하여 일반적인 비전-언어 모델로 작동하며, 긴 문맥 다중모달 데이터를 효과적으로 처리하는 능력을 갖추고 있음.
구글 Colab에서 FastStream 및 RabbitMQ를 활용하여 인메모리 “센서 알림” 파이프라인을 구축하는 방법을 소개하는 노트북. FastStream의 RabbitBroker와 TestRabbitBroker를 이용하여 외부 인프라 없이 메시지 브로커를 시뮬레이션하며, 데이터 처리의 네 가지 단계를 조율한다.
Anthropic사가 Claude Code를 사용한 코딩 에이전트 개발을 위한 상세한 가이드를 발표했다. Claude Code는 개발자 중심의 명령줄 인터페이스로, Claude 언어 모델을 일상적인 프로그래밍 작업에 통합하는 데 사용된다.
LLMs가 의료 분야에서 중요해지면서 신뢰할 수 있는 소스가 그들의 결과물을 뒷받침하는 것이 점점 중요해지고 있다. 아직 FDA가 임상 의사 결정에 승인한 LLM은 없지만, GPT-4o, Claude, MedPaLM과 같은 최고 모델은 USMLE과 같은 표준 시험에서 의사를 능가했다. 이러한 모델들은 이미 정신 건강과 같은 현실적 상황에서 활용되고 있다.
Serverless MCP는 개발자들이 AWS 플랫폼에서 애플리케이션을 빌드하고 배포하는 방식을 혁신적으로 단순화했지만, 복잡한 아키텍처의 디버깅과 관리는 여전히 어려움을 겪고 있습니다. Serverless MCP는 이러한 도전에 대응하기 위해 도입되었으며, AI 지원 디버깅을 가능하게 합니다.
본 콜랩 튜토리얼에서는 Google의 Gemini 2.0 생성 AI를 FastMCP를 통해 내부 프로세스 MCP 서버와 통합하는 방법을 보여줍니다. GEMINI_API_KEY를 안전하게 캡처하기 위해 대화형 getpass 프롬프트로 시작하여 Gemini API 호출을 위한 google-genai Python 클라이언트, FastMCP 등을 설치하고 구성합니다.
비디오 생성은 시간에 걸쳐 움직임과 시각적 현실을 시뮬레이트하는 이미지 시퀀스를 만드는 컴퓨터 비전 및 머신 러닝 분야다. 스탠포드 대학 연구진은 FramePack라는 압축 기반 AI 프레임워크를 제안하여 장기 시퀀스 비디오 생성 시 발생하는 Drifting과 Forgetting 문제를 효율적인 컨텍스트 관리와 샘플링을 이용해 해결하는 방안을 제시했다.

바이트댄스가 GUI 상호작용 및 게임 환경에 초점을 맞춘 최신 다중모달 에이전트 프레임워크인 UI-TARS-1.5를 공개했다. 화면 콘텐츠를 인식하고 대화형 작업을 수행할 수 있는 비전-언어 모델로 설계된 UI-TARS-1.5는 GUI 자동화 및 게임 추론 벤치마크 영역에서 지속적인 개선을 선보이며 선도적인 모델들을 능가하고 있다.
OpenAI가 “Identifying and Scaling AI Use Cases”라는 포괄적인 프로세스 지향 가이드를 발행했다. 300개 이상의 사례 연구와 통찰을 바탕으로 기업이 AI를 측정 가능한 영향을 창출하는 방법을 결정하는 것이 주요 과제다.
Reinforcement learning은 LLM의 추론 능력을 향상시키는 강력한 기법이지만, 숫자 계산이나 기호 조작이 필요한 작업에서 한계가 있다. ReTool은 이러한 한계를 극복하기 위한 도구-Augmented 강화 학습 프레임워크다.
대형 언어 모델(LLMs)은 복잡한 추론 작업을 처리하는 능력으로 주목받고 있으며, Letta와 UC 버클리의 연구자들은 유휴 상태에서 컴퓨팅을 확장하여 더 어려운 문제에 더 많은 리소스를 할당함으로써 더 높은 정확도를 달성하는 ‘슬립 타임 컴퓨트’를 소개했다.
대형 언어 모델(LLMs)은 방대한 양의 텍스트 데이터를 소화하면서 지식을 업데이트하는데 그들을 속일 수 있는 놀라운 데이터가 있을 수 있다. Google DeepMind는 이를 예측하고 줄이기 위한 새로운 기술을 소개하고 있다.
이 튜토리얼에서는 Google Colab 내에서 브라우저 주도 AI 에이전트의 기능을 활용하는 방법을 배우게 됩니다. Playwright의 headless Chromium 엔진과 browser_use 라이브러리의 높은 수준의 Agent 및 BrowserContext 추상화를 활용하여 웹사이트를 자동으로 탐색하고 데이터를 추출하며 복잡한 작업을 자동화할 것입니다.
푸리에 신경 오퍼레이터(FNO)는 편미분 방정식 해결 오퍼레이터를 학습하는 강력한 도구이지만, 아키텍처에 대한 최적화가 부족하다. FFT – GEMM – iFFT의 계산 패턴이 더 많은 주목을 받고 있다. UC 리버사이드의 연구자들은 TurboFNO를 소개하여 PyTorch보다 최대 150% 속도 향상을 달성했다.

대형 언어 모델(Large language models, LLMs)은 질문 응답 및 구조적 추론과 같은 단일 에이전트 작업에서 놀라운 능력을 보여주었지만, 협업적으로 추론하는 능력은 여전히 미발달 상태입니다. Meta AI는 협업 추론자인 Coral을 소개하여 다수의 에이전트가 상호 작용하고 의견 충돌을 해결하며 해결책을 도출하는 능력을 향상시키는 AI 프레임워크를 특별히 설계했습니다.
FastAPI-MCP는 FastAPI 엔드포인트를 Model Context Protocol (MCP) 도구로 변환해주는 툴이다. 이를 통해 FastAPI 앱 내에서 MCP 서버를 쉽게 마운트하여 통합이 간편해진다. 이 튜토리얼에서는 미국 국립 공원의 알림을 가져오는 FastAPI 엔드포인트를 FastAPI-MCP를 사용하여 어떻게 변환하는지 살펴볼 것이다.

NVIDIA가 CLIMB 프레임워크를 소개했다. 대규모 언어 모델이 커짐에 따라, 사전 학습 데이터 선택은 중요해졌다. CLIMB은 최적화된 데이터 혼합을 위한 프레임워크로, 이는 후속 성능에 영향을 미친다.

OpenAI가 기업이 AI를 업무에 통합하는 방법을 상세히 설명한 전략 보고서를 발행했다. Morgan Stanley, Indeed, Klarna, Lowe’s, BBVA, Mercado Libre 및 OpenAI와의 협력을 바탕으로, AI를 대규모로 도입하기 위한 일계획을 제시했다.
UC 버클리와 AI2 연구원들이 발표한 연구에 따르면, LLMs는 소량의 데이터로도 어려운 수학 문제를 해결할 수 있게 되었습니다. 최근 소규모 지도 파인튜닝 접근법들이 수학 문제 해결 능력을 현저히 향상시켰으며, 모델이 훈련 데이터를 넘어 일반화하는지 여부에 대한 근본적인 질문이 남아 있습니다.
최근 LLMs의 영역은 외부 지식을 추론 프로세스에 통합하는 도구를 포함하도록 신속히 발전해왔습니다. 이 방향으로의 중요한 발전 중 하나는 RAG(검색 증강 생성)인데, 이를 통해 모델이 데이터베이스와 검색 엔진을 쿼리하여 훈련 중에 포함되지 않은 최신이나 특수 정보를 얻을 수 있습니다. RAG는 지식 집중적 작업에서 성능을 향상시킵니다.
Meta AI가 Perception Language Model (PLM)을 발표했다. 이 모델은 도전적인 시각 인식 작업을 해결하기 위한 오픈 및 재현 가능한 비전-언어 모델로, 과학적 투명성과 재현성을 높이는 데 기여한다.
Firecrawl Playground은 사용자 친화적 인터페이스로 웹 데이터 추출 및 스트리밍을 간소화하며, 개발자와 데이터 전문가들이 다양한 추출 방법을 통해 API 응답을 탐색하고 미리 볼 수 있게 합니다.
대규모 언어 모델(Large Language Models, LLMs)과 외부 도구, 응용프로그램, 데이터 원본의 통합은 점점 더 중요해지고 있다. Model Context Protocol (MCP)와 Function Calling은 모델과 외부 시스템 간의 원활한 상호작용을 달성하기 위한 두 가지 중요한 방법이다. 두 접근 방식은 AI 모델의 실용적 능력을 확장하기 위해 목표를 두지만, 아키텍처 측면에서 근본적으로 다르다.
Meta AI가 소개한 Perception Encoder는 이미지와 비디오에 걸쳐 다양한 시각 작업을 뛰어나게 처리하는 대규모 비전 인코더다. AI 시스템이 점점 다중 모달로 발전함에 따라 시각 지각 모델의 역할은 더 복잡해지고 있다. 기존의 비전 인코더는 물체와 장면을 인식하는 것뿐만 아니라 캡션, 질문 응답, 세부 인식, 문서 구문 분석, 이미지와 비디오 모두에 걸쳐 공간 추론을 지원해야 한다.
IBM이 새로운 음성-텍스트(STT) 모델 Granite 3.3 8B를 발표했다. 이 모델은 자동 음성 인식(ASR) 및 자동 음성 번역(AST)에서 뛰어난 성능을 보여준다.
OpenAI가 엔지니어링 및 제품 팀을 위해 자율 AI 시스템 구현을 탐색하는 실무 안내서를 게시했다. 실제 배치 사례를 바탕으로 한 이 가이드는 적합한 사용 사례 식별, 에이전트 아키텍처 구성, 안전성과 신뢰성을 보장하기 위한 견고한 보호장치 내장에 대한 체계적 접근 방식을 제공한다.
구글이 Gemini API를 통해 접근 가능한 AI 모델인 Gemini 2.5 Flash를 소개했다. Gemini 2.0 Flash의 기초를 바탕으로 하면서 추론 능력을 향상시키고 속도와 비용 효율성에 중점을 둔다. Gemini의 주요 기능 중 하나는 조정 가능한 사고 예산과 하이브리드 추론이다.
LLM 평가는 인공지능의 신뢰성과 유용성을 높이는 데 중요하며, 이를 위한 튜토리얼에서는 철저하고 다양한 방법론을 제시한다.
수학 및 프로그래밍 분야의 복잡한 문제 해결에 효율적인 추론이 중요하며, LLMs는 연쇄 추론을 통해 상당한 향상을 보여줌. 그러나 트랜스포머 기반 모델은 장기 시퀀스를 효율적으로 처리하는 것이 어렵기 때문에 한계가 있음. 이에 TogetherAI, Cornell, Geneva, Princeton 연구진이 M1이라는 하이브리드 AI를 소개하며 최신 성능을 3배의 추론 속도로 달성함.
AI 시스템이 외부 데이터 소스 및 운영 도구와의 실시간 상호 작용에 점점 더 의존하게 되면서, 이들 시스템은 동적 조치 수행, 변화하는 환경에서 결정 내리기, 실시간 정보 스트림에 액세스하는 것이 기대된다. 이를 위해 AI 아키텍처는 모델을 서비스 및 데이터셋과 연결하는 표준화된 인터페이스를 통합하여 능력을 가능하게 한다.
Hugging Face Hub에 사용자 정의 데이터셋을 업로드하는 과정을 안내하는 튜토리얼. Hugging Face Hub는 머신러닝을 위한 데이터셋과 모델을 공유하고 협업하는 플랫폼이다.
Model Context Protocol은 강력한 도구를 Cursor와 같은 현대적인 IDE에 직접 통합하는 것을 매우 쉽게 만들어주어 생산성을 크게 향상시킵니다. 몇 가지 간단한 단계로 Cursor가 Figma 디자인에 액세스하고 코드 생성 기능을 사용하여 몇 분 안에 웹 페이지를 디자인할 수 있습니다.
MLLM은 최근 세밀한 픽셀 수준 시각적 이해를 다루는 데 진전되어 정확한 영역 기반 편집 및 분할과 같은 작업에 확장되었습니다. 기존 방법들은 복잡한 아키텍처에 의존하는데, 이를 극복하기 위해 바이트댄스와 WHU의 연구자들이 픽셀-SAIL을 소개하며 7B MLLMs를 능가했습니다.