staging.mijutoday.com

모델 컨텍스트 프로토콜(MCP)과 AI 에이전트 스킬 비교: LLM을 위한 구조화 도구와 행동 지침 분석

최근 AI 에이전트 생태계에서는 외부 도구와 도메인 지식 활용을 위한 두 가지 접근법인 스킬과 모델 컨텍스트 프로토콜(MCP)이 주목받고 있다. 이들은 설정과 작업 수행 방식에서 차이를 보인다.

2026년 3월 13일 오전 4시 32분

구글 AI, ‘Groundsource’ 공개…Gemini 모델로 비정형 뉴스 데이터를 역사적 정보로 변환

구글 AI 연구팀이 Gemini 모델을 활용해 비정형 글로벌 뉴스에서 구조화된 역사 데이터를 추출하는 새로운 방법론 ‘Groundsource’를 발표했다. 이 프로젝트는 급작스러운 자연재해에 대한 역사 데이터 부족 문제를 해결하는 데 목적이 있다.

2026년 3월 13일 오전 4시 07분

구글 콜랩에서 Andrej Karpathy의 AutoResearch 프레임워크로 자율 머신러닝 연구 루프 구축하기

이 튜토리얼에서는 Andrej Karpathy가 제안한 AutoResearch 프레임워크를 구글 콜랩에 맞게 구현하는 방법을 소개합니다. 자동화된 실험 파이프라인을 구축해 하이퍼파라미터 조정과 실험 추적을 자동으로 수행합니다.

2026년 3월 12일 오후 6시 46분

스탠퍼드 연구진, 도구와 학습 기능 갖춘 개인 AI 에이전트용 오픈소스 프레임워크 'OpenJarvis' 공개

스탠퍼드 대학 연구진이 기기 내에서 완전히 작동하는 개인 AI 에이전트를 개발할 수 있는 오픈소스 프레임워크 'OpenJarvis'를 발표했다. 이 플랫폼은 로컬 우선 AI 시스템 구축을 위한 연구 및 배포용 인프라를 제공한다.

2026년 3월 12일 오후 5시 21분

동적 환경에서 부분 추론, 온라인 재계획, 반응형 중간 실행 적응을 갖춘 스트리밍 의사 결정 에이전트 설계 방법

이 튜토리얼에서는 계속해서 안전한 부분 추론 업데이트를 스트리밍하는 동안 온라인으로 생각하고 행동하는 스트리밍 의사 결정 에이전트를 구축합니다. 이는 이동하는 장애물과 이동하는 목표가 있는 동적 그리드 월드를 구현하고, 온라인 A* 플래너를 사용하여 미래 몇 단계에만 집중합니다.

2026년 3월 11일 오후 7시 44분

NVIDIA, Nemotron 3 Super 공개: 120B 파라미터 오픈소스 하이브리드 Mamba-Attention MoE 모델, 에이전틱 AI에 5배 높은 처리량 제공

NVIDIA가 Nemotron 3 Super를 공개했다. 이 모델은 복잡한 다중 에이전트 응용 프로그램을 위해 설계된 놀라운 1200억 파라미터 추론 모델로, 경쟁 모델보다 5배 높은 처리량을 제공한다.

2026년 3월 11일 오후 2시 19분

구글 AI, Gemini Embedding 2 소개: 텍스트, 이미지, 비디오, 오디오, 문서를 포함한 다중 모달 임베딩 모델

구글이 Gemini Embedding 2를 발표했다. 이 모델은 텍스트 뿐만 아니라 이미지, 비디오, 오디오, 문서 등을 임베딩 공간으로 가져와 AI 개발자가 고차원 저장 및 교차 모달 검색 도전에 대처할 수 있도록 설계되었다.

2026년 3월 11일 오전 3시 18분

Fish Audio가 Fish Audio S2를 출시하며 감정을 엄청나게 제어할 수 있는 혁신적인 텍스트 음성 변환(TTS)의 새로운 세대를 선보임

Fish Audio의 S2-Pro은 Fish Speech 생태계 내에서의 플래그십 모델로, 고품질의 다중 화자 합성과 150ms 미만의 대기 시간을 갖춘 오픈 아키텍처로의 전환을 대표함. 릴리스는 제로샷 보이스 클로닝과 세밀한 음성 복제를 위한 프레임워크를 제공함.

2026년 3월 11일 오전 12시 58분

자동으로 작업별 AI 에이전트를 구축, 생성 및 정제하는 자가 설계 메타 에이전트를 구축하는 방법

이 튜토리얼에서는 간단한 작업 설명서로부터 자동으로 다른 에이전트를 설계하는 메타 에이전트를 구축합니다. 작업을 분석하고 도구를 선택하며 메모리 아키텍처를 선택하고 계획자를 구성한 다음 완전히 작동하는 에이전트 런타임을 인스턴스화하는 시스템을 구현합니다. 정적 에이전트 템플릿을 넘어서 동적이고 자가 구성되는 아키텍처를 구축합니다.

2026년 3월 11일 오전 12시 23분

NVIDIA AI, Nemotron-Terminal: LLM 터미널 에이전트 확장을 위한 체계적인 데이터 엔지니어링 파이프라인 공개

NVIDIA가 Nemotron-Terminal을 공개했다. 이는 LLM 터미널 에이전트의 확장을 위한 체계적인 데이터 엔지니어링 파이프라인으로, 자율 주행 AI 에이전트 구축 경쟁에서 데이터가 병목 현상을 일으키고 있다. 새로운 모델과 훈련 전략의 불투명성은 연구자와 개발자를 고비용의 암묵적인 사이클로 몰아넣고 있다.

2026년 3월 10일 오후 4시 15분

내부 비평가, 자기 일관성 추론 및 불확실성 추정을 결합한 신뢰할 수 있는 의사 결정을 위한 위험 인식 AI 에이전트 구축 방법

이 튜토리얼에서는 내부 비평가와 불확실성 추정 프레임워크를 통합하여 단순한 응답 생성을 넘어진 심화된 에이전트 시스템을 구축한다. 다중 샘플 추론을 시뮬레이션하고 후보 응답을 정확도, 일관성, 안전성 측면에서 평가하며, 엔트로피, 분산, 일관성 측정을 사용하여 예측 불확실성을 양적화한다. 자신감을 균형있게 유지하기 위해 위험에 민감한 선택 전략을 구현한다.

2026년 3월 10일 오전 2시 35분

바이트댄스, 복잡한 작업을 수행하는 오픈소스 슈퍼에이전트 하네스 'DeerFlow 2.0' 출시

바이트댄스가 DeerFlow 2.0을 공개했다. 이 프레임워크는 '슈퍼에이전트'로 일을 제안하는 것뿐만 아니라 실행하는 기능을 갖추고 있어, 복잡한 작업을 수행할 수 있다.

2026년 3월 10일 오전 2시 10분

Andrew Ng의 팀이 발표한 Context Hub: 코딩 에이전트에게 필요한 최신 API 문서를 제공하는 오픈 소스 도구

Andrew Ng와 그의 팀이 개발한 Context Hub은 코딩 에이전트의 정적 훈련 데이터와 현대 API의 빠르게 변화하는 현실 사이의 간극을 줄이기 위해 설계된 오픈 소스 도구입니다.

2026년 3월 9일 오후 4시 47분

Anthropic, 고급 에이전틱 다단계 추론 루프를 사용하여 복잡한 보안 연구 자동화를 위한 Claude Code를 통한 코드 리뷰 도입

Anthropic은 Claude Code를 통해 고급 에이전틱 다단계 추론 루프를 활용해 복잡한 보안 연구를 자동화하는 코드 리뷰를 소개하고 있다. 이는 AI가 보일러플레이트만 작성하는 것을 넘어서 실제로 왜 Kubernetes 클러스터가 새벽 3시에 알람을 울리는지 이해하는 AI 에이전트를 지향하는 것이다.

2026년 3월 9일 오후 4시 28분

'베이지안' 업그레이드: 왜 구글 AI의 새 가르침 방법이 LLM 추론의 열쇠인가

구글 연구팀은 현재의 AI 에이전트들이 '확률적 추론' 능력을 크게 부족하다고 주장하며, 대규모 언어 모델(LLM)이 새로운 증거를 기반으로 믿음을 업데이트하는 냉정하고 단단한 논리에 대해 얼마나 고집스러운지 설명했다.

2026년 3월 9일 오전 4시 23분

Scanpy를 사용하여 클러스터링 시각화 및 세포 유형 주석에 대한 완전한 단일 세포 RNA 시퀀싱 분석 파이프라인 구축 코딩 가이드

이 튜토리얼에서는 Scanpy를 사용하여 단일 세포 RNA 시퀀싱 분석을 위한 완전한 파이프라인을 구축합니다. 필요한 라이브러리를 설치하고 PBMC 3k 데이터세트를 로드한 다음 품질 관리, 필터링, 정규화를 수행하여 데이터를 준비합니다. 고변동 유전자를 식별하고 차원 축소를 위해 PCA를 수행한 후 클러스터링 및 시각화를 진행합니다.

2026년 3월 9일 오전 1시 03분

OpenAI, 콘텍스트 인식 취약점 탐지 및 패치 생성을 위한 Codex Security 연구 미리보기 소개

OpenAI가 Codex Security를 소개했습니다. 이는 코드베이스를 분석하여 취약점을 확인하고 개발자가 수정 전에 검토할 수 있는 보안 에이전트입니다. 제품은 ChatGPT Enterprise, Business 및 Edu 고객을 대상으로 연구 미리보기로 롤아웃 중입니다.

2026년 3월 6일 오후 3시 49분

구글 AI, 안드로이드 개발을 위한 LLMs 평가 프레임워크 및 리더보드 '안드로이드 벤치' 공개

구글이 안드로이드 개발 작업에서 Large Language Models (LLMs)의 성능을 측정하기 위한 새로운 리더보드 및 평가 프레임워크인 안드로이드 벤치를 공개했다. 데이터셋, 방법론, 테스트 하네스는 GitHub에서 공개되었으며, 일반 코딩 벤치마크가 캡처하지 못하는 안드로이드 개발 작업에 적합하다.

2026년 3월 6일 오후 2시 53분

Liquid AI, LFM2-24B-A2B를 활용한 LocalCowork 출시, Model Context Protocol (MCP)를 통해 로컬에서 개인정보 보호형 에이전트 워크플로우 실행

Liquid AI가 LocalCowork를 발표했는데, 이는 LFM2-24B-A2B를 활용한 모델로, 기업 워크플로우를 기기 내에서 완전히 실행할 수 있도록 해준다. API 호출과 데이터 이탈을 없애 프라이버시에 민감한 환경에서 사용된다.

2026년 3월 6일 오전 12시 45분

Daft를 활용한 고성능 구조화 및 이미지 데이터 처리를 위한 확장 가능한 엔드투엔드 머신러닝 데이터 파이프라인 구축 코딩 가이드

이 튜토리얼에서는 Daft를 사용하여 고성능의 파이썬 데이터 엔진으로 엔드투엔드 분석 파이프라인을 구축하는 방법을 탐구합니다. MNIST 데이터셋을 로드한 다음 UDF, 피처 엔지니어링, 집계, 조인 및 지연 실행을 통해 점진적으로 변환하는 방법을 살펴봅니다. 구조화된 데이터 처리, 숫자 계산, 이미지 처리 등을 원활하게 결합하는 방법을 보여줍니다.

2026년 3월 5일 오후 6시 07분

최신뉴스 전체보기

올인원 AI지원 프라이버시 보호 연합 사기 탐지 시스템의 경량 PyTorch 시뮬레이션을 사용한 코딩 구현

이 튜토리얼에서는 무거운 프레임워크나 복잡한 인프라에 의존하지 않고 연합 학습을 사용하여 프라이버시 보호 사기 탐지 시스템을 시뮬레이션하는 방법을 보여줍니다. 10개의 독립 은행을 모방하며, 각각이 고도로 불균형한 거래 데이터에서 로컬 사기 탐지 모델을 학습합니다. 이러한 로컬 업데이트를 조율합니다.

2025년 12월 31일 오전 4시 19분

알리바바 통이 연구소, 안드로이드월드에서 Gemini 2.5 Pro, Seed1.8 및 UI-Tars-2를 능가하는 MAI-UI 발표

알리바바 통이 연구소는 MAI-UI를 발표했다. MCP 도구 사용, 에이전트 사용자 상호작용, 장치-클라우드 협업, 온라인 강화학습을 기반으로 한 MAI-UI는 일반 GUI 기반 및 모바일 GUI 탐색에서 최첨단 결과를 달성했다. Gemini-2.5-Pro, Seed1.8 및 UI-Tars-2를 능가하며 초기 GUI 에이전트가 종종 무시하는 세 가지 특정 간극을 대상으로 한다.

2025년 12월 31일 오전 3시 48분

LLMRouter 만나보기: 각 쿼리에 가장 적합한 모델을 동적으로 선택하여 LLM 추론 최적화하는 지능형 라우팅 시스템

LLMRouter는 일리노이스 대학교 어바나 샴페인 캠퍼스의 U Lab에서 개발된 오픈 소스 라우팅 라이브러리로, 각 쿼리에 대해 작업 복잡성, 품질 목표 및 비용을 기반으로 모델을 선택하여 모델 선택을 시스템 문제로 취급합니다.

2025년 12월 30일 오후 5시 52분

CAMEL을 활용한 강력한 다중 에이전트 파이프라인 구축 방법: 계획, 웹 보강 추론, 비평, 지속적 기억

CAMEL 프레임워크를 사용하여 고급 다중 에이전트 연구 워크플로우를 구축하는 튜토리얼. Planner, Researcher, Writer, Critic, Finalizer와 같은 에이전트들이 협력하여 고수준 주제를 다듬어 근거 있는 연구 요약으로 변환하는 과정을 다룸. OpenAI API를 안전하게 통합하고 에이전트 상호작용을 프로그래밍적으로 조정하며 가벼운 지속적 기억을 추가함.

2025년 12월 30일 오후 4시 42분

PydanticAI를 활용한 위험 인식 정책 준수 기업 AI를 위한 계약 중심 에이전틱 의사 결정 시스템 구축 방법

PydanticAI를 사용하여 계약 중심 에이전틱 의사 결정 시스템을 설계하는 방법을 소개하는 튜토리얼. 구조화된 스키마를 협상 불가능한 거버넌스 계약으로 취급하여 정책 준수, 위험 평가, 확신 보정 및 실행 가능한 다음 단계를 에이전트의 출력 스키마에 직접 인코딩하는 방법을 보여준다.

2025년 12월 29일 오후 3시 04분

NVIDIA AI 연구원들이 NitroGen을 공개: 일반 게임 에이전트를 위한 오픈 비전 액션 기반 모델

NVIDIA AI 연구팀은 NitroGen을 발표했는데, 이는 일반 게임 에이전트를 위한 오픈 비전 액션 기반 모델로, 인터넷 비디오를 통해 픽셀과 게임패드 액션을 직접 학습하여 상용 게임을 플레이하는 방법을 익힙니다. NitroGen은 1,000개 이상의 게임에서 40,000시간의 게임 플레이로 훈련되었으며, 오픈 데이터셋과 유니버설 시뮬레이터를 제공합니다.

2025년 12월 29일 오전 2시 51분

Liquid AI의 LFM2-2.6B-Exp는 순수 보강 학습 및 동적 하이브리드 추론을 사용하여 소형 모델 동작을 강화합니다

Liquid AI가 LFM2-2.6B-Exp를 소개했는데, 기존 LFM2 스택 위에 순수 보강 학습으로 훈련된 실험적인 체크포인트이다. 목표는 소형 3B 클래스 모델의 명령 따르기, 지식 과제 및 수학을 개선하는 것이며 여전히 장치 및 엣지 배포를 대상으로 한다.

2025년 12월 28일 오후 4시 51분

GraphBit를 사용하여 결정론적 도구, 검증된 실행 그래프 및 선택적 LLM Orchestration을 활용한 생산용 에이전틱 워크플로우 구축 방법

GraphBit를 사용하여 그래프 구조의 실행, 도구 호출 및 선택적 LLM-주도 에이전트가 단일 시스템에서 공존하는 프로덕션 스타일의 에이전틱 워크플로우를 구축하는 튜토리얼. GraphBit 런타임 초기화 및 검사, 현실적인 고객 지원 티켓 도메인 정의, 결정론적인 오프라인 실행 가능한 도구를 사용하는 방법 등을 다룸.

2025년 12월 28일 오전 7시 57분

Gemma 3 270M에서 FunctionGemma까지, Google AI가 엣지 워크로드를 위한 소형 함수 호출 전문가를 어떻게 만들었는가

구글이 FunctionGemma를 출시했다. Gemma 3 270M 모델을 기반으로 훈련된 이 모델은 함수 호출을 위해 특별히 설계되었고 자연어를 실행 가능한 API 액션으로 매핑하는 엣지 에이전트로 작동한다.

2025년 12월 27일 오전 4시 26분

셀프 조직화 지텔카스텐 지식 그래프 및 수면 합병 메커니즘 구축에 대한 코딩 구현

이 튜토리얼에서는 Agentic AI의 최첨단 기술을 활용하여 인간 뇌처럼 정보를 조직하는 “Zettelkasten” 메모리 시스템을 구축한다. 표준 검색 방법을 넘어 에이전트가 입력을 원자적 사실로 자율적으로 분해하고 의미론적으로 연결하는 동적 지식 그래프를 구축한다.

2025년 12월 26일 오후 2시 33분

MiniMax가 M2.1을 발표: 다중 코딩 언어 지원, API 통합 및 구조화된 코딩을 위한 향상된 도구 기능 탑재

MiniMax가 M2 모델의 향상된 버전인 MiniMax M2.1을 출시했다. 이 모델은 다중 코딩 언어 지원, API 통합, 구조화된 코딩을 위한 개선된 도구 등의 기능을 제공하며 낮은 비용으로 빠른 실행 속도를 자랑한다.

2025년 12월 25일 오후 11시 35분

그래프 기반 시뮬레이션을 이용한 경로 계획, 동적 경매, 실시간 시각화를 통한 자율형 다중 에이전트 물류 시스템 구축 코딩 가이드

본 튜토리얼에서는 동적 도시 전체 도로 네트워크 내에서 여러 스마트 배송 트럭이 운영되는 고급 완전 자율 로지스틱 시뮬레이션을 구축한다. 각 트럭이 입찰 가능하고 배송 주문에 입찰하며 최적 경로를 계획하고 배터리 수준을 관리하고 충전소를 찾아내며 이익을 극대화할 수 있도록 시스템을 디자인한다.

2025년 12월 25일 오후 12시 50분

스탠포드와 하버드의 이 AI 논문은 왜 대부분의 ‘의지 있는 AI’ 시스템이 데모에서 인상적으로 느껴지다가 실제 사용에서 완전히 실패하는지 설명합니다

스탠포드, 하버드, UC의 최신 연구 논문인 ‘의지 있는 AI의 적응’에서는 대부분의 ‘의지 있는 AI’ 시스템이 신뢰할 수 없는 도구 사용, 약한 장기 계획, 부족한 일반화 등에 여전히 어려움을 겪고 있다고 설명하고 있다.

2025년 12월 25일 오전 5시 57분

인스타딥, Nucleotide Transformer v3 (NTv3) 소개: 1 Mb 컨텍스트 길이에 적합한 새로운 다종 생물 유전체 기반 모델

InstaDeep의 NTv3는 지역 모티프를 메가베이스 규모의 조절 가능한 시퀀스 생성과 함께 연결하는 모델로, 표현 학습, 기능적 트랙 및 유전체 주석 예측을 통합한다.

2025년 12월 24일 오후 3시 53분

구글 헬스 AI가 MedASR을 공개: 임상 사전작성을 위한 콘포머 기반 의료 음성 대본 모델

구글 헬스 AI 팀이 MedASR을 공개했다. MedASR은 임상 사전작성과 의사-환자 대화를 대상으로 한 오픈 가중치 의료 음성 대본 모델로, 현대 AI 워크플로에 직접 통합될 수 있도록 설계되었다. MedASR은 Conformer 아키텍처를 기반으로 한 음성 대본 모델이다.

2025년 12월 24일 오후 1시 10분

프로액티브 프리-엠티브 이탈 방지 에이전트 구축 방법: 지능적인 관찰과 전략 형성

사용자 이탈 위험을 사전에 식별하고 개인화된 재참여 이메일을 작성하여 이탈을 방지하는 에이전트를 만드는 방법에 대한 튜토리얼. 이탈이 발생하기를 기다리는 것이 아니라 사용자의 비활동을 관찰하고 행동 패턴을 분석하여 인센티브를 계획하고 Gemini를 사용해 인간이 이해할 수 있는 이메일 초안을 생성하는 방법에 초점.

2025년 12월 24일 오전 2시 29분

구글 딥마인드 연구원들, Gemma 3 모델을 위한 풀 스택 해석성 스위트 Gemma Scope 2 공개

구글 딥마인드 연구원들이 Gemma Scope 2를 소개했다. 이는 Gemma 3 언어 모델이 270M에서 27B 파라미터에 이르는 모든 레이어에서 정보를 처리하고 표현하는 방법을 노출하는 해석성 도구 모음이다. 주요 목표는 AI 안전 및 정렬 팀들이 모델 동작을 내부 기능으로 역추적할 수 있는 실용적인 방법을 제공하는 것이다.

2025년 12월 23일 오후 1시 39분

Meta AI, 오픈소스로 공개된 Perception Encoder Audiovisual (PE-AV): SAM Audio 및 대규모 다중 모달 검색을 동력으로 하는 오디오비주얼 인코더

Meta 연구진은 PEAV(Perception Encoder Audiovisual)를 소개했는데, 이는 오디오와 비디오의 통합 이해를 위한 새로운 인코더 패밀리로, 약 100M개의 오디오 비디오 쌍과 텍스트 캡션을 대규모 대조적 학습을 통해 단일 임베딩 공간에서 정렬된 오디오, 비디오 및 텍스트 표현을 학습한다.

2025년 12월 23일 오전 5시 32분

SmolAgents와 Qwen 모델을 사용하여 완전 자율형 지역 플리트 유지보수 분석 에이전트 구축하는 방법

SmolAgents와 지역 Qwen 모델을 활용하여 완전 자율형 플리트 분석 에이전트를 만드는 과정을 안내하는 튜토리얼. 외부 API 호출 없이 유지보수 위험을 추론, 분석, 시각화하는 방법을 살펴봄.

2025년 12월 22일 오후 8시 00분

구글, A2UI (에이전트-사용자 인터페이스) 소개: 에이전트 주도 인터페이스를 위한 오픈 소스 프로토콜

구글이 A2UI를 오픈 소스로 공개했다. 이는 에이전트가 풍부한 네이티브 인터페이스를 선언적 JSON 형식으로 설명하고, 클라이언트 애플리케이션이 자체 구성 요소로 렌더링할 수 있는 라이브러리이다. 원격 에이전트가 신뢰 경계를 넘어 안전하고 상호 작용적인 인터페이스를 제공하는 방법에 대한 명확한 문제를 해결한다.

2025년 12월 22일 오후 7시 01분

Anthropic AI, 개방형 소스 에이전틱 프레임워크 ‘Bloom’ 공개

Anthropic이 새로운 오픈 소스 에이전틱 프레임워크 ‘Bloom’을 출시했다. 이 프레임워크는 전방위 인공지능 모델의 자동 행동 평가를 위한 것으로, 연구자가 지정한 행동을 측정하여 현실적인 시나리오에서 얼마나 자주 강도 있게 나타나는지 측정한다. ‘Bloom’의 등장은 안전 및 정렬을 위한 행동 평가가 설계 및 유지에 비용이 많이 드는 문제를 해결한다.

2025년 12월 21일 오후 9시 55분

AI 인터뷰 시리즈 #4: KV 캐싱 설명

이 기사는 AI 모델 배포 시 발생하는 속도 저하에 대한 문제를 다루고, KV 캐싱을 통해 이를 해결하는 방법에 대해 논의합니다.

2025년 12월 21일 오후 6시 23분

NVIDIA AI가 Nemotron 3를 발표: 긴 문맥을 위한 하이브리드 Mamba Transformer MoE 스택

NVIDIA가 Nemotron 3 패밀리를 발표했는데, 이는 agentic AI를 위한 완전한 스택으로, 모델 가중치, 데이터셋 및 강화 학습 도구를 포함한다. 이 패밀리는 Nano, Super, Ultra 세 가지 크기로 나뉘어 있으며, 긴 문맥 추론과 추론 비용에 엄격한 제어가 필요한 다중 에이전트 시스템을 대상으로 한다.

2025년 12월 21일 오전 5시 34분

Gemini를 활용한 자동 의료 증거 수집 및 사전 승인 제출을 위한 완전한 에이전트 워크플로우 설계 코딩 가이드

본 튜토리얼에서는 Gemini를 활용하여 자동 의료 증거 수집 및 사전 승인을 위한 기능적인 의료 에이전트를 어떻게 조율하는지에 대해 설명합니다. 모델을 안전하게 구성하는 것부터 현실적인 외부 도구를 구축하고 구조화된 JSON을 통해 완전히 추론, 행동 및 응답하는 지능적인 에이전트 루프를 구성하는 각 구성 요소를 단계별로 안내합니다.

2025년 12월 20일 오후 10시 16분

Mistral AI, 구조화된 문서 AI를 위한 작은 OCR 모델 OCR 3 출시

Mistral AI가 최신 OCR 서비스인 Mistral OCR 3를 출시했다. 이 모델은 PDF 및 기타 문서에서 교차된 텍스트와 이미지를 추출하고 구조를 보존하는 데 사용되며, 1,000 페이지 당 $2의 저렴한 가격에 이를 수행한다.

2025년 12월 20일 오전 4시 26분

Kombu를 사용하여 고성능 분산 작업 라우팅 시스템 구축하는 방법

이 튜토리얼에서는 Kombu를 사용하여 이벤트 중심의 워크플로우를 구축하는 방법에 대해 설명합니다. 메시징을 핵심 아키텍처 기능으로 취급하여 교환, 라우팅 키, 백그라운드 워커, 동시 생산자의 설정을 단계별로 안내하며 실제 분산 시스템을 관찰할 수 있습니다.

2025년 12월 20일 오전 3시 32분

구글, SigLIP 및 128K 컨텍스트를 통해 다중모달 입력을 사용하는 T5Gemma 2: 인코더 디코더 모델 소개

구글이 T5Gemma 2를 발표했다. Gemma 3 사전 훈련 가중치를 인코더-디코더 레이아웃으로 적응시킨 후, UL2 목적으로 사전 훈련을 계속했다. 개발자들을 위해 사전 훈련된 상태로 제공되며 특정 작업을 위해 추가 훈련할 수 있도록 의도되었다.

2025년 12월 19일 오후 10시 12분

Gemini Flash, Few-Shot Selection, 및 진화적 명령어 검색을 사용한 자동 프롬프트 최적화를 위한 완전한 워크플로우

이 튜토리얼에서는 프롬프트를 정적 텍스트가 아닌 조정 가능한 매개변수로 취급하여 전통적인 프롬프트 제작에서 더 체계적이고 프로그래밍 가능한 방식으로 전환합니다. Gemini 2.0 Flash 주변의 최적화 루프를 구축하여 가장 강력한 프롬프트 구성을 자동으로 선택하는 효과적인 방법을 제시합니다.

2025년 12월 19일 오후 6시 02분

Unsloth AI와 NVIDIA가 혁신적인 로컬 LLM Fine-Tuning을 혁신하고 있습니다: RTX 데스크탑부터 DGX Spark까지

Unsloth와 NVIDIA는 RTX 데스크탑부터 DGX Spark까지 NVIDIA RTX AI PC를 사용하여 인기 있는 AI 모델을 빠르게 Fine-tuning하여 코딩, 창의적 작업 및 복잡한 업무에 맞는 맞춤형 어시스턴트를 구축할 수 있습니다.

2025년 12월 19일 오후 12시 57분

Meta AI, SAM Audio 발표: 음성 분리를 위한 진보된 통합 모델

Meta사가 SAM Audio를 발표했는데, 이는 진행이 어려운 오디오 분리 문제를 해결하기 위한 모델로, 사용자 친화적이고 멀티모달 프롬프트를 활용한다. 세 가지 사이즈로 제공되며, 다운로드 및 사용이 가능하다.

2025년 12월 18일 오전 2시 48분

CrewAI와 Gemini를 사용하여 실시간 지능협업을 위한 완전 자율적인 다중 에이전트 연구 및 작성 파이프라인을 조정하는 방법

이 튜토리얼에서는 Gemini Flash 모델을 사용하여 협업하는 작은 but 강력한 두 에이전트 CrewAI 시스템을 구축하는 방법을 구현합니다. 환경을 설정하고 안전하게 인증하고 특수 에이전트를 정의하며 연구에서 구조화된 작성으로 흐르는 작업을 조정합니다.

2025년 12월 17일 오후 11시 51분

Thinking Machines Lab, Tinker를 일반적으로 사용 가능하게 만들며 Kimi K2 Thinking과 Qwen3-VL Vision Input을 추가

Thinking Machines Lab은 Tinker 훈련 API를 일반적으로 사용 가능하게 하고, Kimi K2 Thinking 추론 모델 지원, OpenAI 호환 샘플링, Qwen3-VL 비전 언어 모델을 통한 이미지 입력을 추가했습니다. AI 엔지니어들에게는 분산 훈련을 구축하지 않고도 선두 모델을 세밀하게 조정할 수 있는 실용적인 방법으로 변모시켰습니다.

2025년 12월 17일 오후 1시 36분

Gemini를 활용한 의미 라우팅, 상징적 가드레일, 반사적 조율을 갖춘 자가 교정 멀티 에이전트 AI 시스템 설계 방법

본 튜토리얼에서는 Gemini를 사용하여 의미 라우팅, 상징적 가드레일 및 자가 교정 루프로 구동되는 완전한 에이전트 AI 조율 파이프라인을 설계하고 실행하는 방법을 탐구합니다. 에이전트 구조, 작업 디스패치, 제약 조항 강제 및 깔끔하고 모듈식 아키텍처를 사용하여 출력을 정제하는 방법을 살펴봅니다.

2025년 12월 16일 오전 7시 44분

OpenAI가 ‘circuit-sparsity’를 발표: Activation Bridges를 통해 Weight Sparse 모델과 밀집 베이스라인을 연결하는 오픈 도구 세트

OpenAI팀이 Hugging Face에서 openai/circuit-sparsity 모델과 GitHub에서 openai/circuit_sparsity 툴킷을 공개했다. ‘Weight-sparse transformers have interpretable circuits’ 논문의 모델과 회로를 패키징했는데, 이는 Python 코드로 훈련된 GPT-2 스타일 디코더 전용 트랜스포머다. 희소성은 훈련 후에 추가되지 않았다.

2025년 12월 14일 오후 12시 01분

5 AI 모델 아키텍처, 모든 AI 엔지니어가 알아야 할 것

오늘날의 AI 생태계는 LLMs에 대해 말하는 사람들이 많지만, 그 이면에는 기계가 어떻게 보고, 계획하고, 행동하며, 세분화하고, 개념을 표현하고, 심지어 작은 장치에서 효율적으로 실행하는 방식을 조용히 변화시키는 특수화된 아키텍처의 전체 가족이 있다. 각 모델은 지능 퍼즐의 다른 부분을 해결하고 함께…

2025년 12월 13일 오후 3시 22분

Nanbeige4-3B-Thinking: 23T 토큰 파이프라인이 3B 모델을 30B 클래스 추론으로 끌어올리는 방법

Boss Zhipin의 Nanbeige LLM Lab이 발표한 Nanbeige4-3B는 데이터 품질, 커리큘럼 스케줄링, 디스틸레이션, 강화 학습에 중점을 둔 3B 파라미터 작은 언어 모델 패밀리로, 30B 클래스 추론을 제공하는 훈련 레시피를 수정함으로써 가능한가에 대한 연구 결과를 소개한다.

2025년 12월 13일 오후 3시 00분

Griptape 워크플로, Hugging Face 모델, 그리고 모듈식 창의적 작업 오케스트레이션을 활용한 완전 로컬 에이전틱 스토리텔링 파이프라인 설계 방법

Griptape와 가벼운 Hugging Face 모델을 사용하여 로컬, API 없이 에이전틱 스토리텔링 시스템을 만드는 튜토리얼. 에이전트 생성, 허구의 세계 생성, 캐릭터 디자인, 일관된 단편 소설 생성을 위한 다단계 워크플로 설계 방법을 소개. 모듈식 코드 조각으로 구현을 나눠 설명.

2025년 12월 13일 오전 6시 14분

OpenAI, 에이전트, 코딩 및 지식 업무용 GPT 5.2 도입

OpenAI가 GPT-5.2를 소개했다. ChatGPT 및 API에서 사용 가능한 이 모델은 전문 업무 및 장기 에이전트에 적합하며 3가지 변형이 있다. ChatGPT에서는 ChatGPT-5.2 Instant, Thinking, Pro을 사용할 수 있고, API에서는 gpt-5.2-chat-latest, gpt-5.2, gpt-5.2-pro이다.

2025년 12월 12일 오전 5시 04분

CopilotKit v1.50가 새로운 useAgent Hook을 통해 AG-UI 에이전트를 직접 앱으로 가져옵니다

CopilotKit은 AI 동료 및 앱 내 에이전트를 직접 구축하기 위한 오픈 소스 프레임워크입니다. 팀들은 에이전트 그래프를 강력한 사용자 인터페이스로 변환하기 위해 여전히 사용자 정의 코드를 작성해야 했는데, CopilotKit은 이를 해결합니다.

2025년 12월 12일 오전 4시 07분

머신 러닝의 양극화: Marktechpost의 최신 ML 글로벌 영향 보고서, ML 도구 원산지와 연구 채택 사이의 지리적 불균형 밝혀

Marktechpost의 ML 글로벌 영향 보고서에 따르면, ML 도구의 원산지와 연구 채택 사이에 지리적 불균형이 있음을 밝혀냄. 125개국에서 발표된 5,000여편의 논문을 분석한 결과, 특정 연구 영역에서의 불균형을 보여줌.

2025년 12월 12일 오전 2시 56분

Mistral AI, Devstral 2 코딩 모델 및 Mistral Vibe CLI 출시

Mistral AI가 소프트웨어 엔지니어링 에이전트를 위한 다음 세대 코딩 모델인 Devstral 2 및 터미널 또는 Agent Communication Protocol을 지원하는 IDE 내에서 실행되는 오픈 소스 명령줄 코딩 도우미인 Mistral Vibe CLI를 소개했습니다.

2025년 12월 10일 오후 2시 19분

시간이 지남에 따라 뉴럴 모듈로 스킬을 학습, 저장, 검색 및 재사용하는 절차적 메모리 에이전트를 구축하는 코딩 가이드

이 튜토리얼에서는 환경과 상호작용을 통해 지능적 에이전트가 단계적으로 절차적 메모리를 형성하는 방법을 탐구합니다. 스킬이 뉴럴 모듈처럼 작동하도록 설계하여 행동 시퀀스를 저장하고 상황에 맞는 임베딩을 전달하며, 새로운 상황에서 유사성에 따라 검색됩니다.

2025년 12월 10일 오전 7시 50분

구글 LiteRT NeuroPilot 스택, MediaTek Dimensity NPUs를 장치 내 LLM의 첫 번째 대상으로 전환

구글과 MediaTek의 새 LiteRT NeuroPilot 가속기는 실제 생성 모델을 폰, 랩탑 및 IoT 하드웨어에서 데이터 센터로 요청을 보내지 않고 실행할 수 있는 구체적인 단계입니다. 기존의 LiteRT 런타임을 채택하여 MediaTek의 NeuroPilot NPU 스택에 직접 연결하여 개발자가 LLMs와 임베딩 모델을 배포할 수 있습니다.

2025년 12월 10일 오전 3시 21분

Zhipu AI, 네이티브 도구 호출이 가능한 128K 콘텍스트 비전 언어 모델인 GLM-4.6V 공개

Zhipu AI가 GLM-4.6V 시리즈를 공개했다. 이미지, 비디오, 도구를 주요 입력으로 취급하는 비전 언어 모델로, 텍스트 위에 올려진 후속 조치가 아닌 에이전트를 위한 것이다.

2025년 12월 9일 오후 5시 13분

Jina AI, 2.4B 다국어 비전 언어 모델 ‘Jina-VLM’ 출시

Jina AI가 2.4B 파라미터의 비전 언어 모델인 Jina-VLM을 출시했다. 이 모델은 다국어 비주얼 질의응답 및 제한된 하드웨어에서 문서 이해를 목표로 한다. SigLIP2 비전 인코더와 Qwen3 언어 백본을 결합하며, 시각 토큰을 줄이고 공간 구조를 보존하는 주의 집중 풀링 커넥터를 사용한다.

2025년 12월 9일 오전 6시 14분

인터뷰: CUDA에서 타일 기반 프로그래밍으로 – NVIDIA의 Stephen Jones가 AI 미래 구축에 대해 이야기

NVIDIA의 공학자 Stephen Jones와의 인터뷔. AI 모델이 복잡해지고 하드웨어가 발전함에 따라, 두 요소를 연결하는 소프트웨어 계층도 적응해야 함. Jones는 CUDA의 원조 아키텍트 중 한 명으로, 유체 역학부터 항공우주 공학까지 배경을 가지고 있음.

2025년 12월 9일 오전 1시 54분

트랜스포머에서 연관 메모리로: 타이탄과 미라스가 장기 컨텍스트 모델링을 어떻게 바꾸는가

구글 리서치가 타이탄과 미라스로 시퀀스 모델에 장기 기억력을 부여하고, 훈련을 병렬로 유지하면서 추론을 선형에 가깝게 하는 새로운 방법을 제안하고 있다. 타이탄은 트랜스포머 스타일의 백본에 심층 신경 메모리를 추가하는 구체적인 아키텍처이다. 미라스는 일반적인 프레임워크로, 시퀀스 모델에 연관 메모리를 부여하는 방식을 제시하고 있다.

2025년 12월 8일 오후 1시 59분

Cisco, 디코더 전용 트랜스포머 아키텍처 기반의 첫 번째 오픈 가중치 기반 모델인 Cisco Time Series Model 출시

Cisco와 Splunk은 옵저버빌리티 및 보안 메트릭을 위해 디자인된 단변량 제로 샷 시계열 기반 모델인 Cisco Time Series Model을 소개했다. 이 모델은 Apache 2.0 라이선스 하에 Hugging Face에 오픈 웨이트 체크포인트로 출시되었으며 과업별 특정 파인튜닝 없이 예측 워크로드를 대상으로 한다.

2025년 12월 8일 오전 5시 39분

구글 코랩, 캐글 데이터셋, 모델 및 대회에 원 클릭 액세스할 수 있는 캐글허브 통합

구글이 캐글과 코랩 사이의 간극을 메우기 위해 새로운 기능인 코랩 데이터 익스플로러를 출시했다. 이를 통해 노트북 내에서 캐글 데이터셋, 모델, 대회를 검색하고 편집기를 벗어나지 않고 캐글허브를 통해 가져올 수 있다.

2025년 12월 8일 오전 4시 56분

NumPyro를 사용한 JAX 기반 추론 및 사후 예측 분석의 완전한 계층적 베이지안 회귀 워크플로우 코딩 구현

Hierarchical Bayesian regression을 NumPyro로 구현하는 튜토리얼. 가상 데이터 생성부터 전체 워크플로우를 구조적으로 안내. NUTS를 사용해 추론 설정하고 사후 분포 분석, 사후 예측 분석 수행.

2025년 12월 8일 오전 4시 32분

Microsoft AI, VibeVoice-Realtime 릴리스: 스트리밍 텍스트 입력과 강력한 장문 음성 생성을 지원하는 경량 실시간 텍스트 음성 변환 모델

Microsoft이 VibeVoice-Realtime-0.5B를 발표했다. 실시간 텍스트 음성 변환 모델은 에이전트 스타일 애플리케이션과 실시간 데이터 내레이션을 위해 설계되었으며, 약 300ms 안에 청취 가능한 음성을 생성할 수 있다.

2025년 12월 7일 오후 2시 28분

빠르고 심층적이며 도구 기반 사고 전략 사이에서 선택하는 적응형 메타 추론 에이전트 구축 방법

이 튜토리얼은 어떻게 사전에 어떻게 생각할지 결정하는 메타 추론 에이전트를 구축하는 방법에 대해 시작합니다. 모든 쿼리에 동일한 추론 프로세스를 적용하는 대신 복잡성을 평가하고 빠른 휴리스틱, 심층적인 사고 연쇄, 또는 도구 기반 계산 중에서 선택하고 실시간으로 행동을 적응시키는 시스템을 설계합니다.

2025년 12월 7일 오후 1시 13분

OpenAGI Foundation가 Lux를 발표: OSGym과 규모 확장을 통해 온라인 Mind2Web을 선도하는 Foundation 컴퓨터 사용 모델

Lux는 느린 수동 클릭 작업을 신뢰할 수 있는 자동화 시스템으로 전환하는 최신 컴퓨터 사용 에이전트의 예시로, OpenAGI Foundation 팀이 발표한 Lux는 실제 데스크탑에서 작동하는 Foundation 모델이다.

2025년 12월 6일 오후 3시 18분

커널 주성분 분석 (PCA): 예시와 함께 설명

PCA와 같은 차원 축소 기술은 데이터셋이 선형 분리 가능한 경우 효과적이지만, 비선형 패턴이 나타나면 제대로 동작하지 않는다. 이런 경우, 커널 PCA는 데이터를 고차원 특성 공간으로 매핑하여 비선형 패턴을 해결한다.

2025년 12월 6일 오후 2시 29분

TinyLlama를 사용한 지능적인 작업 분해와 자율 협업을 위한 완전 로컬 다중 에이전트 오케스트레이션 시스템 설계하는 방법

TinyLlama를 활용해 효율적인 매니저-에이전트 아키텍처를 통해 특화된 AI 에이전트 팀을 로컬에서 오케스트레이션하는 방법을 탐구합니다. 외부 API에 의존하지 않고 구조화된 작업 분해, 에이전트 간 협업, 자율 추론 루프를 구축하는 과정을 transformers 라이브러리를 통해 진행합니다.

2025년 12월 6일 오후 2시 07분

Apple 연구자들, 16배 – 128배 시멘틱 문서 압축을 위한 Continuous Latent Reasoning 프레임워크 CLaRa 발표

Apple과 에든버러 대학의 연구팀이 CLaRa를 발표했다. CLaRa는 연속 잠재 추론을 사용하여 시멘틱 문서를 압축하는 기능을 제공한다.

2025년 12월 6일 오전 5시 20분

AI 인터뷰 시리즈 #4: 트랜스포머 대 전문가 혼합 (MoE)

트랜스포머와 전문가 혼합(MoE)의 차이점과 MoE 모델이 추론 시 더 빠르게 실행되는 이유에 대해 알아봅니다.

2025년 12월 4일 오후 2시 17분

메타-인지 인공지능 에이전트 구축 방법: 효율적 문제 해결을 위해 자체 추론 깊이 동적으로 조절하는 방법

이 튜토리얼에서는 자체 추론 깊이를 조절하는 고급 메타-인지 제어 에이전트를 구축한다. 빠른 휴리스틱부터 심층적인 사고 연쇄, 정확한 도구 형식의 문제 해결까지 추론을 스펙트럼으로 취급하고, 각 작업에 대해 사용할 모드를 결정하기 위해 신경 메타-컨트롤러를 훈련시킨다.

2025년 12월 4일 오후 2시 07분

NVIDIA와 Mistral AI, GB200 NVL72 GPU 시스템에서 Mistral 3 패밀리를 위한 10배 빠른 추론 속도 제공

NVIDIA와 Mistral AI의 전략적 협력 확대로 Mistral 3 패밀리의 새로운 모델 출시와 함께 추론 속도가 10배 향상되었다. 이는 하드웨어 가속화와 오픈 소스 모델 아키텍처가 만나 성능 기준을 재정의한 중대한 순간이다.

2025년 12월 3일 오전 11시 26분

보상 희소 환경 해결을 위한 온라인 프로세스 보상 학습을 사용하여 선호도로부터 단계별 보상 학습하는 방법

이 튜토리얼에서는 온라인 프로세스 보상 학습 (OPRL)을 탐구하고, 궤적 선호도로부터 밀도가 높은 단계별 보상 신호를 학습하여 희소 보상 강화 학습 과제를 해결하는 방법을 시연합니다. 미로 환경부터 보상 모델 네트워크, 선호도 생성, 훈련 루프 및 평가까지 각 구성요소를 살펴보면서 에이전트가 서서히 개선되는 과정을 관찰합니다.

2025년 12월 3일 오전 8시 19분

구글 딥마인드 연구진, LLM 에이전트의 경험 재사용을 위한 Evo-Memory 벤치마크 및 ReMem 프레임워크 소개

대형 언어 모델 에이전트들은 모든 것을 저장하기 시작했지만, 테스트 시 경험을 통해 정책을 개선할 수 있을까? 일리노이 대학과 구글 딥마인드의 연구진은 Evo-Memory를 제안하며 이 문제에 대처한다. Evo-Memory는 경험 재사용을 위한 스트리밍 벤치마크 및 에이전트 프레임워크를 평가한다.

2025년 12월 3일 오전 7시 01분

DeepSeek 연구자들, 장문맥 추론과 에이전트 워크로드를 위한 DeepSeek-V3.2 및 DeepSeek-V3.2-Speciale 소개

DeepSeek 연구팀이 DeepSeek-V3.2 및 DeepSeek-V3.2-Speciale을 소개했다. 이 모델들은 에이전트를 위한 고품질 추론, 장문맥, 에이전트 워크플로우를 지향하며 열린 가중치와 제품 API를 갖췄다.

2025년 12월 2일 오전 9시 53분

MiniMax-M2: 상호 작용적 사고에 대한 에이전틱 코딩 워크플로에 대한 기술적 탐구

MiniMax-M2는 AI 코딩 환경을 혁신하며, 고성능이 높은 비용이나 레이턴시로 이어지는 문제를 해결한다. 이 기사는 MiniMax-M2에 대한 기술적 개요를 제공한다.

2025년 12월 2일 오전 2시 23분

Panel를 사용하여 고급 다중 페이지 대시 보드 설계하기: 동적 필터링, 실시간 KPI, 풍부한 시각적 탐색

Panel을 활용해 고급 다중 페이지 인터랙티브 대시 보드를 만드는 튜토리얼. 각 구성 요소를 통해 합성 데이터 생성, 풍부한 필터 적용, 동적 시계열 트렌드 시각화, 세그먼트 및 지역 비교, 그리고 실시간 KPI 업데이트 시뮬레이션 방법을 탐구한다.

2025년 12월 1일 오전 6시 53분

메타 AI 연구원들이 소개하는 매트릭스: 레이 네이티브, 분산 프레임워크를 통한 다중 에이전트 합성 데이터 생성

메타 AI 연구원들이 소개한 매트릭스는 현대 AI 모델을 위해 합성 데이터를 신선하고 다양하게 유지하는 방법을 제시하는데, 단일 조율 파이프라인을 병목 현상으로 만들지 않고, 분산된 대기열을 통해 메시지로 직렬화된 제어와 데이터 흐름을 구현한 분산 프레임워크이다.

2025년 11월 30일 오후 6시 49분

StepFun AI, 새 오디오 LLM Step-Audio-R1 발표: 테스트 시간 컴퓨팅 스케일링에서 이점

StepFun 연구팀이 새 오디오 LLM Step-Audio-R1을 발표했다. 이 모델은 테스트 시간 컴퓨팅 스케일링을 위해 설계되어, 오디오에 대한 실제 소리 기반의 의사 결정에서 장시간 추론을 생성할 때 성능이 저하되는 문제를 해결한다.

2025년 11월 30일 오전 7시 03분

NVIDIA AI, Orchestrator-8B 발표: 효율적인 도구 및 모델 선택을 위한 강화 학습 훈련 컨트롤러

NVIDIA 연구진이 ToolOrchestra를 발표했습니다. 이는 각 작업 단계마다 올바른 모델 또는 도구를 선택하는 AI 시스템을 어떻게 학습시킬 수 있는지에 대한 혁신적인 방법입니다.

2025년 11월 29일 오후 1시 18분

안전하고 모듈화되며 확장 가능한 툴 주도 추론 워크플로우를 위한 제어 평면 아키텍처를 사용하여 에이전틱 AI 시스템을 설계하는 코딩 가이드

이 튜토리얼에서는 제어 평면 디자인 패턴을 사용하여 고급 에이전틱 AI를 구축하고 구현할 때 각 구성 요소를 단계별로 안내합니다. 제어 평면을 중앙 조정기로 취급하여 도구를 조정하고 안전 규칙을 관리하며 추론 루프를 구조화합니다. 또한 작은 검색 시스템을 설정합니다.

2025년 11월 29일 오후 12시 15분

DeepSeek AI, DeepSeekMath-V2 발표: 2024년 Putnam 대회에서 118/120점 획득한 오픈 웨이트 수학 모델

DeepSeek AI가 공개 가중치 대규모 언어 모델인 DeepSeekMath-V2를 발표했다. 이 모델은 자연어 정리를 최적화하고 자가 검증을 통해 자신의 추론이 올바른지 확인하면서 복잡한 올림피아드 수학 문제를 해결할 수 있다.

2025년 11월 28일 오후 6시 35분

문헌 분석, 가설 생성, 실험 계획, 시뮬레이션, 과학 보고를 수행하는 에이전틱 AI 프레임워크에 대한 코딩 구현

이 튜토리얼에서는 문헌 말뭉치를 로드하고 검색 및 LLM 모듈을 구성하고 논문을 검색하고 가설을 생성하고 실험을 설계하며 구조화된 보고서를 생성하는 에이전트를 조립하여 과학적 발견 에이전트를 구축하는 방법을 설명합니다.

2025년 11월 28일 오전 11시 30분

OceanBase, Seekdb 릴리스: 멀티모델 RAG와 AI 에이전트를 위한 오픈소스 AI 네이티브 하이브리드 검색 데이터베이스

OceanBase가 AI를 위해 고안된 오픈소스 데이터베이스인 seekdb를 출시했다. seekdb는 다양한 데이터 모델과 AI 에이전트를 위한 하이브리드 검색 기능을 제공하며, Apache 2.0 라이센스로 제공된다.

2025년 11월 27일 오후 4시 44분

텐센트 훈유안, HunyuanOCR 공개: 1B 파라미터 엔드 투 엔드 OCR 전문가 VLM

텐센트 훈유안이 OCR 및 문서 이해를 위해 특화된 1B 파라미터 비전 언어 모델인 HunyuanOCR을 공개했다. 이 모델은 멀티모달 아키텍처를 기반으로 하며, 스포팅, 파싱, 정보 추출, 시각적 질문 응답 및 텍스트 이미지 번역을 단일 엔드 투 엔드 파이프라인을 통해 실행한다.

2025년 11월 27일 오전 4시 07분

Black Forest Labs가 제작 이미지 파이프라인을 위한 32B 플로우 매칭 트랜스포머인 FLUX.2를 출시합니다

Black Forest Labs가 FLUX.2를 발표했습니다. FLUX.2는 실제 창의적 워크플로우를 대상으로 하며, 마케팅 자산, 제품 사진, 디자인 레이아웃, 복잡한 인포그래픽 등에 편집 지원을 제공합니다. FLUX.2 제품군과 FLUX.2 [dev]가 소개되었습니다.

2025년 11월 26일 오후 4시 46분

Tinygrad를 사용하여 딥러닝 내부를 이해하기 위해 Transformer 및 Mini-GPT 모델의 기능 구성 요소를 처음부터 구현하는 방법

Tinygrad를 사용하여 텐서, 오토그래드, 어텐션 메커니즘 및 트랜스포머 구조를 완전히 손으로 만들어보는 튜토리얼. 기본 텐서 작업부터 멀티헤드 어텐션, 트랜스포머 블록, 미니-GPT 모델까지 순차적으로 구축하면서 Tinygrad의 간결함을 관찰한다.

2025년 11월 26일 오후 4시 04분

Salesforce AI 연구팀이 소개한 xRouter: 비용 인식 LLM Orchestration을 위한 강화 학습 라우터

Salesforce AI 연구팀이 소개한 xRouter는 강화 학습 기반 라우터를 활용하여 각 요청에 어떤 서버가 응답해야 하는지 결정하며 외부 모델을 호출할지 결정하는 기능을 제공한다.

2025년 11월 26일 오전 3시 25분

Agent0: 외부 데이터 없이 고성능 에이전트를 진화시키는 완전 자율형 AI 프레임워크

UNC-Chapel Hill, Salesforce Research 및 Stanford University의 연구자들이 소개한 ‘Agent0’는 외부 데이터 없이 고성능 에이전트를 다단계 공진을 통해 진화시키는 완전 자율형 프레임워크이다.

2025년 11월 25일 오후 3시 10분

논리적 계획과 신경 인식을 결합한 강력한 자율 의사 결정을 위한 신경 기호 하이브리드 에이전트 구축 방법

이 튜토리얼에서는 심볼릭 추론의 강점을 신경 학습과 결합하여 강력한 하이브리드 에이전트를 구축하는 방법을 보여줍니다. 우리는 구조, 규칙 및 목표 지향적 행동을 위해 고전적 계획을 사용하는 신경 기호 아키텍처를 만드는 데 초점을 맞추고, 신경망이 인식 및 행동 정제를 처리하도록합니다.

2025년 11월 25일 오후 2시 13분

Microsoft AI, Fara-7B 발표: 컴퓨터 사용을 위한 효율적인 에이전틱 모델

마이크로소프트 연구팀이 7조 개의 파라미터를 가진 Fara-7B를 발표했다. 이 모델은 컴퓨터 사용을 위해 특별히 설계된 작은 언어 모델로, 클라우드로 데이터를 보내지 않고도 AI 에이전트가 웹 작업을 처리할 수 있게 해준다.

2025년 11월 25일 오전 7시 57분

NVIDIA AI, Nemotron-Elastic-12B 발표: 추가 훈련 비용 없이 6B/9B/12B 변형 제공하는 단일 AI 모델

NVIDIA는 하나의 탄력 있는 모델로 여러 크기의 모델을 생성할 수 있게 하여 AI 개발팀이 여러 대규모 언어 모델을 훈련하고 저장할 필요성을 없앴다. NVIDIA AI팀은 Nemotron-Elastic-12B를 발표했는데, 이는 12B 파라미터 추론 모델로, 추가 훈련 비용 없이 6B, 9B, 12B 변형을 제공한다.

2025년 11월 24일 오후 3시 54분

AI 인터뷰 시리즈 #3: 페더레이티드 러닝 설명

ML 엔지니어로서 민감한 센서 데이터를 다루는 피트니스 회사에서 개인 맞춤형 운동을 권장하거나 건강 위험을 예측하는 모델을 구축하려고 할 때 개인정보 보호법에 따라 페더레이티드 러닝을 설명하라는 질문에 대한 답변.

2025년 11월 24일 오후 2시 57분

Moonshot AI 연구자들, Seer 소개: 빠른 동기화 강화 학습 RL 롤아웃을 위한 온라인 콘텍스트 학습 시스템

Moonshot AI와 Tsinghua 대학의 연구진은 대규모 추론 모델에 대한 강화 학습이 매우 긴, 매우 느린 롤아웃에 멈추지 않도록하고 GPU가 under used 상태에서 어떻게 유지할 수 있는지에 대한 새로운 온라인 콘텍스트 학습 시스템 ‘Seer’를 소개했다.

2025년 11월 23일 오후 3시 28분

똑똑한 지역 피드백, 적응적 의사 결정, 그리고 다중 에이전트 조정을 갖춘 미니 강화 학습 환경-행동 에이전트 설계하는 방법

이 튜토리얼에서는 상호 작용, 피드백 및 계층적 의사 결정을 통해 그리드 월드를 탐색하는 다중 에이전트 시스템을 학습하는 미니 강화 학습 설정을 코딩합니다. Action Agent, Tool Agent 및 Supervisor 세 가지 에이전트 역할을 결합하여 간단한 휴리스틱, 분석을 관찰할 수 있습니다.

2025년 11월 23일 오후 2시 24분

구글 딥마인드, 나노 바나나 프로 소개: 텍스트 정확하고 스튜디오급 시각을 위한 제미니 3 프로 이미지 모델

나노 바나나 프로는 구글 딥마인드의 새 이미지 생성 및 편집 모델로, 구조, 세계 지식, 텍스트 레이아웃을 존중해야 하는 이미지를 생성하고 편집하는 최첨단 시스템이다.

2025년 11월 22일 오후 4시 34분

Perplexity AI, 기존 GPU 클러스터에서 1조 매개변수 LLMs 실행 가능한 TransferEngine 및 pplx garden 공개

Perplexity의 연구팀이 TransferEngine 및 pplx garden 툴킷을 공개하여, 기존 GPU 클러스터에서 1조 매개변수 언어 모델을 실행하는 방법을 제공함.

2025년 11월 21일 오후 7시 56분

Opik를 사용한 투명하고 측정 가능하며 재현 가능한 AI 워크플로우를 위한 완전 추적 및 평가된 로컬 LLM 파이프라인 구현

Opik를 사용하여 LLM 파이프라인을 구축, 추적 및 평가하는 완전한 워크플로우를 구현하는 튜토리얼. 경량 모델로 시작하여 프롬프트 기반 계획 추가, 데이터셋 생성 및 자동화된 평가 실행까지 구조화된 시스템을 단계별로 진행하며 Opik가 각 함수 스팬을 추적하는 방법을 확인합니다.

2025년 11월 21일 오후 5시 47분

Allen Institute for AI (AI2)가 Dolma 3 및 Dolci 스택에서 구축된 오픈 소스 7B 및 32B LLM 패밀리인 Olmo 3를 소개합니다

Allen Institute for AI (AI2)가 오픈 소스로 출시한 Olmo 3는 전체 ‘모델 플로우’를 노출하는데, 원시 데이터 및 코드부터 중간 체크포인트 및 배포 준비 모델까지 포함하고 있습니다. Olmo 3은 7B 및 32B 파라미터 모델을 갖춘 밀도 변환기 스위트입니다.

2025년 11월 21일 오후 12시 07분

오프라인 멀티툴 추론 에이전트 구축하는 방법: 동적 계획, 오류 복구, 지능적 기능 라우팅

이 튜토리얼에서는 Instructor 라이브러리를 사용하여 구조화된 출력물을 생성하고 복잡한 도구 호출을 신뢰성 있게 조정하는 오프라인 멀티스텝 추론 에이전트를 구축하는 방법을 탐구합니다. 올바른 도구 선택, 입력 유효성 검사, 다단계 워크플로 계획, 오류 복구를 할 수 있는 에이전트를 설계합니다.

2025년 11월 21일 오전 8시 32분

Meta AI, 이미지와 비디오에서 프롬프트 가능한 개념 세분화를 위한 Segment Anything Model 3 (SAM 3) 발표

Meta AI 팀이 Meta Segment Anything Model 3 또는 SAM 3을 공개했다. SAM 3은 간단한 프롬프트를 사용하여 대규모 이미지 및 비디오 컬렉션에서 모든 개념의 인스턴스를 신뢰성 있게 찾고 세분화하고 추적하는 데 사용되는 통합 기본 모델이다.

2025년 11월 21일 오전 4시 53분

vLLM 대 TensorRT-LLM 대 HF TGI 대 LMDeploy, 프로덕션 LLM 추론을 위한 심층 기술 비교

이 비교는 vLLM, TensorRT-LLM, HF TGI, LMDeploy의 4가지 스택에 초점을 맞춰 실제 작업 부하에서 추론 스택의 선택이 GPU 플릿의 토큰 당 초, 테일 레이턴시 및 궁극적으로 백만 토큰 당 비용을 결정한다.

2025년 11월 20일 오후 4시 21분

OpenAI, GPT-5.1-Codex-Max 소개: 장기간 소프트웨어 엔지니어링 작업을 위한 코딩 모델

OpenAI가 GPT-5.1-Codex-Max를 소개했다. 이 모델은 수백만 토큰과 멀티 시간대 세션을 거치는 장기 소프트웨어 엔지니어링 작업을 위해 설계되었다. CLI, IDE 확장, 클라우드 통합 및 코드 리뷰 등에서 사용 가능하며 API 액세스도 곧 예정되어 있다.

2025년 11월 20일 오후 12시 55분

구글 안티그래비티, IDE를 에이전트 코딩을 위한 제어 평면으로 만듦

구글이 Gemini 3 위에 위치한 에이전트 개발 플랫폼인 안티그래비티를 소개했다. 자동 완성 레이어뿐만 아니라 편집기, 터미널, 브라우저 등 여러 환경에서 복잡한 소프트웨어 작업을 기획, 실행, 설명하는 IDE로 안티그래비티는 2025년 11월 18일 Gemini 3와 함께 출시되었다.

2025년 11월 20일 오전 8시 02분

현대적 에이전틱 AI 시스템의 추론 전략을 평가하기 위한 포괄적 경험적 프레임워크의 구현

이 튜토리얼에서는 다양한 작업에서 여러 추론 전략을 평가하여 에이전틱 구성 요소를 체계적으로 벤치마킹하는 방법을 탐구합니다. 각기 다른 아키텍처인 직접방식, 사고연쇄방식, ReAct, Reflexion 등이 어려움이 증가하는 문제에 직면했을 때 어떻게 행동하고, 정확도, 효율성, 대기 시간, 도구 사용 패턴을 측정합니다.

2025년 11월 20일 오전 6시 32분

에이전틱 딥 강화 학습 시스템 구축 방법: 커리큘럼 진행, 적응적 탐험, 메타 레벨 UCB 계획

이 튜토리얼에서는 환경 내에서의 행동 뿐만 아니라 자체 교육 전략을 선택하는 방법을 학습하는 고급 에이전트형 딥 강화 학습 시스템을 구축한다. Dueling Double DQN 학습자를 설계하고 어려움이 증가하는 커리큘럼을 도입하며 학습 중에 적응하는 여러 탐험 모드를 통합한다.

2025년 11월 19일 오전 8시 35분

xAI의 Grok 4.1, 감정 지능 향상, 환각 감소 및 안전 제어 강화를 추진

xAI의 최신 대형 언어 모델인 Grok 4.1은 인간들에게 감정적으로 지능적이고 신뢰할 수 있는 AI 어시스턴트를 구축하는 방법을 제시한다. 이 모델은 모든 사용자에게 이용 가능하며, 감정 지능을 향상시키고 환각을 줄이며 안전 제어를 강화한다.

2025년 11월 19일 오전 8시 21분

구글의 Gemini 3 Pro가 희소 MoE와 1백만 토큰 콘텍스트를 다중 모달 에이전트 워크로드를 위한 실용 엔진으로 변환

구글은 Gemini 3 Pro를 중심으로 하는 Gemini 3 패밀리를 발표했는데, 이는 백만 토큰 콘텍스트를 다루며 현실 신호를 이해하고 신뢰성 있게 대리자로서 행동할 수 있는 시스템으로 발전하는 과정에서 중요한 한걸음을 나아가고 있다.

2025년 11월 19일 오전 4시 12분

Uni-MoE-2.0-Omni: 텍스트, 이미지, 오디오 및 비디오 이해를 위한 오픈 Qwen2.5-7B 기반 Omnimodal MoE

Uni-MoE-2.0-Omni은 텍스트, 이미지, 오디오, 비디오를 신뢰성 있게 이해하는 오픈 모델로, 하비른 공과대학의 연구진이 소개했다. 이 시스템은 언어 중심의 다중 모달 추론을 위해 Lychee의 Uni-MoE 라인을 발전시킨 것으로, 효율적으로 운영된다.

2025년 11월 18일 오후 3시 56분

불균형 분류를 위한 Focal Loss vs 이진 크로스 엔트로피: 실용적 가이드

바이너리 크로스 엔트로피(BCE)는 이진 분류의 기본 손실 함수이지만, 불균형 데이터셋에서 심각한 문제를 야기할 수 있다. Focal Loss는 한 클래스가 극도로 드물 때도 오류를 적절하게 고려하여 불균형 분류에 유용하다.

2025년 11월 18일 오전 10시 08분

구글 딥마인드의 WeatherNext 2, 함수적 생성 신경망 활용해 확률 기반 날씨 예보 8배 빨라져

구글 딥마인드의 WeatherNext 2는 새로운 함수적 생성 신경망(FGN) 아키텍처와 대규모 앙상블을 결합하여 8배 빠른 확률 기반 날씨 예보를 제공하는 AI 기반의 중기 전역 날씨 예보 시스템이다. Google Search, Gemini, Pixel Weather, Google Maps Platform의 Weather API에 업그레이드된 예보를 제공하고 있으며 Google Maps 통합이 예정되어 있다.

2025년 11월 18일 오전 5시 16분

Meta AI가 DreamGym을 소개: 강화 학습 RL 에이전트를 위한 텍스트 경험 합성기

Meta AI가 DreamGym을 소개했다. DreamGym은 강화 학습을 위한 텍스트 경험 합성기로, 대형 언어 모델 에이전트를 위해 설계되었다. 강화 학습에서 실제 상호작용이 필요한데 이를 해결하기 위해 DreamGym이 개발되었다.

2025년 11월 17일 오후 6시 17분

Optuna를 사용한 고급 하이퍼파라미터 최적화 구현을 위한 코딩 가이드: Pruning Multi-Objective Search, Early Stopping 및 Deep Visual Analysis 활용

이 튜토리얼에서는 Optuna를 사용하여 가지치기, 다중 목적 최적화, 사용자 정의 콜백 및 풍부한 시각화를 체계적으로 탐색하는 고급 워크플로우를 구현합니다. 각 스니펫을 통해 Optuna가 더 스마트한 탐색 공간을 형성하고 실험 속도를 높이며 모델 향상을 이끄는 통찰을 추출하는 방법을 살펴봅니다.

2025년 11월 17일 오후 5시 24분

« 이전 1 2 3 4 5 … 13 다음 »