2026년 6월 17일 수요일
오늘의 신문
2026년 6월 17일 수요일 오늘의 신문
LiTo는 객체의 3D 형상과 시점에 따른 외관을 동시에 모델링하는 새로운 3D 잠재 표현 방식을 제안한다. 기존 연구들이 형상 재구성이나 시점 독립적 확산 외관 예측에 집중한 반면, LiTo는 시점 의존적 효과를 효과적으로 포착한다.
2026년 3월 12일 오전 12시 00분Apple
두 가지 수작업 신호를 결합하는 경량화된 퓨전 모델을 활용하여 더 작은 모델로 더 높은 정확도를 달성하는 것을 보여줌. 저주파수 웨이블릿-노이즈 제거 특징과 공간-위상 얕은 학습 맵을 결합하는 LFWS, 그리고 지역 이진 패턴과 WDF를 병합하는 LFWL을 소개. 이 추가 모듈은 292개의 파라미터만 추가되어 총 21.9백만 파라미터로 유지됨.
2026년 3월 6일 오전 12시 00분Apple
생성 모델이 흔해지면서 생성 프로세스에 대한 세밀한 제어가 필요하다. 이 연구에서는 모델의 제어 가능성에 대한 이론적 프레임워크를 제공하며, 대화 설정에서 모델의 제어 가능한 집합을 추정하기 위한 새로운 알고리즘을 제안한다. 추정 오차에 대한 형식적 보증을 제공한다. #
2026년 3월 6일 오전 12시 00분Apple
시간에 따른 속도장으로 매개변수화된 플로우 모델은 ODE를 통해 노이즈에서 데이터를 생성할 수 있다. 이 모델들은 종종 플로우 매칭을 사용하여 훈련되는데, 이는 무작위 노이즈와 타겟 지점 쌍을 샘플링하고, 평균적으로 속도장이 x1−x0에 맞게 정렬되도록 보장하는 것이다.
2026년 3월 6일 오전 12시 00분Apple
EMBridge는 EMG 신호를 통해 제스처 예측을 개선하는데 사용되며, 고품질 데이터와 저전력 생체 신호를 결합하여 제스처 일반화를 가능하게 합니다.
2026년 3월 3일 오전 12시 00분Apple
대형 언어 모델은 종종 신뢰성을 저해하는 지지 않는 콘텐츠를 생성하는데, 이를 환각이라고 한다. 환각 구간을 식별하는 것은 다단계 의사 결정 과정이 필요한데, 명시적 추론이 이 복잡한 작업을 돕는지에 대한 질문을 냈다. 사전 훈련된 모델을 Chain-of-Thought (CoT) 추론과 함께 평가한 결과, CoT 추론이 최소한...
2026년 3월 3일 오전 12시 00분Apple
대형 언어 모델(Large Language Models, LLMs)의 확대 배포로 인해 발생할 수 있는 해로운 콘텐츠 생성에 대한 우려가 있음. 연구는 안전하지 않은 정보 생성을 방지하기 위한 필터에 초점을 맞추며 계산적 도전 과제를 밝힘. 입력 프롬프트 필터링과 출력 필터링의 어려움을 보여줌.
2026년 3월 3일 오전 12시 00분Apple
프론트엔드 개발자들은 UI 구성 요소를 매개변수화하여 재사용성을 높이지만, 이는 인스턴스화를 어렵게 만든다. 이를 해결하기 위해 구별 가능한 변형을 도입하여 디자인 공간 샘플링과 심볼적 추론을 결합하고 있다.
2026년 2월 27일 오전 12시 00분Apple
사용자가 찾는 내용을 돕기 위해 대규모 상업 검색 시스템은 관련성에 최적화되며, 이를 위해 행동적 관련성과 텍스트 관련성을 활용하는데 전문가가 제공하는 텍스트 관련성 라벨이 부족한 문제를 해결하기 위해 LLM 구성을 체계적으로 평가하여 특화된, 섬세하게 조정된 모델을 사용한다.
2026년 2월 27일 오전 12시 00분Apple
대형 언어 모델(Large Language Models, LLMs)은 음성 입력에 대한 텍스트 능력을 확장하기 위해 적응될 수 있지만, 이러한 음성 적응형 LLMs는 일관적으로 텍스트 기반 대조군 및 심지어 연쇄 파이프라인에서 언어 이해 작업에서 성능이 떨어집니다. 이 글에서는 이러한 갭을 '텍스트-음성 이해 간격'이라고 정의하고, 최근 이 갭을 줄이기 위한 접근 방식들에 대해 다루고 있습니다.
2026년 2월 25일 오전 12시 00분Apple
LLMs의 내부 작업을 조사한 이전 연구에서는 특정 작업을 수행하는 희소한 하위 네트워크 또는 회로가 발견되었습니다. 이러한 연구 결과를 토대로 기존 회로를 강화함으로써 모델 성능을 향상시키는 것이 가능하다는 가능성을 제시했습니다. 이를 바탕으로 Constructive Circuit Amplification이라는 새로운 방법을 제안하고 있습니다.
2026년 2월 25일 오전 12시 00분Apple
A.R.I.S.는 자동 분류 시스템으로, 낮은 비용의 이동식 분류기로 파쇄된 E-폐기물의 금속, 플라스틱, 회로 기판을 실시간으로 분류하여 자원 회수 효율을 높입니다. YOLOx 모델을 사용하여 저렴한 비용으로 빠른 추론 속도와 높은 정확도를 달성합니다.
2026년 2월 25일 오전 12시 00분Apple
PyTorch 2.x에서는 딥러닝 프로그램 가속화를 위한 컴파일러가 도입되었지만, 머신러닝 연구원들에게는 PyTorch 컴파일러에 완전히 적응하기 어려울 수 있습니다. 이를 해결하기 위해 PyTorch 컴파일러의 내부 작업을 명확하게 하는 도구인 depyf가 소개되었습니다.
2026년 2월 24일 오전 12시 00분Apple
CoT prompting은 대형 언어 모델로부터 추론과 유사한 응답을 유도하기 위한 표준 기법이다. 그러나 CoT 추론의 성공을 이끄는 주요 요인은 여전히 불분명하다. 본 연구에서는 경쟁 수준의 수학 문제에서 유래한 CoT 트레이스를 분석하여 CoT의 어떤 부분이 최종 답변에 기여하는지에 대해 더 잘 이해하고자 한다.
2026년 2월 24일 오전 12시 00분Apple
이 연구는 단일 추출기가 모든 웹페이지에 적용되는 기존 오픈소스 데이터셋이 인터넷 데이터의 최적 커버리지와 활용을 제공하는지 조사한다. 다양한 추출기가 표준 언어 이해 작업에서 유사한 모델 성능을 보일 수 있지만, 고정된 필터링 파이프라인을 거쳐 남은 페이지들은 크게 다를 수 있다.
2026년 2월 24일 오전 12시 00분Apple
AMUSE는 대화 중심 환경에서 활용되는 음향-시각적 다중 화자 이해에 중점을 둔 벤치마크 및 정렬 프레임워크이다. 최근의 다중 모달 대형 언어 모델은 강력한 지각 능력을 보이지만, 화자 추적, 역할 유지 및 시간 경과에 걸쳐 사건을 논리적으로 연결하는 다중 화자 상황에서 어려움을 겪는다. AMUSE는 음향 및 시각적 스트림에 대해 공동으로 추론해야 하는 다중 모달 오디오-비디오 이해에 중점을 둔 벤치마크로, 대화형 비디오 어시스턴트 및 회의 분석과 같은 응용 프로그램에서 활용된다.
2026년 2월 24일 오전 12시 00분Apple

최신뉴스 전체보기

QuantSpec: 계층 적용된 양자화된 KV 캐시를 사용한 셀프-추론적 디코딩

점점 더 많은 edge 장치에서 대규모 언어 모델이 장기 문맥 설정에 배포되고 있어서, 빠르고 효율적인 장기 문맥 추론이 점점 더 필요해지고 있다. 이 연구에서는 기존 방법들이 효율적인 KV 캐시 최적화 전략을 통해 중요한 속도 향상을 달성하는 데 어려움을 겪고 낮은 수락률을 유발하는 반면, 자가-추론 디코딩을 사용하여 이러한 쟁점을 해결하는 방법을 제시한다.

2025년 7월 11일 오전 12시 00분Apple
3D 장면 이해를 위한 토큰 구조의 영향 연구: 대규모 언어 모델과의 점-3D LLM

3D 장면을 효과적으로 나타내는 것은 중요하지만 어렵다. 이 연구는 비디오 및 포인트 기반 표현을 비교하고 시각적 토큰을 3D 포인트 클라우드 기능으로 보강하는 새로운 방법을 제안한다. 실험 결과는 명시적인 3D 정보를 통합하는 것이 3D 장면 이해에 도움이 된다는 것을 보여준다.

2025년 7월 11일 오전 12시 00분Apple
애플 머신러닝 연구, ICML 2025에서 소개

애플 연구원들이 인공지능과 머신러닝 분야의 기본 연구를 통해 진보하고 있으며, 이를 지원하기 위해 연구 내용을 게재하고 학회 참여를 통해 발전을 가속화하고 있다. 다음 주에 캐나다 밴쿠버에서 열리는 국제 머신러닝 학회(ICML)에 애플이 참가할 예정이며, 산업 후원사로 참여할 예정이다.

2025년 7월 11일 오전 12시 00분Apple
시네스카우트: 시각 장애인을 위한 AI 에이전트 주도의 거리뷰 이미지 접근을 향하여

시각 장애인이 낯선 환경에서 독립적으로 여행하기 어려운 이유 중 하나는 물리적 지형에 대한 불확실성 때문이다. 이 연구에서는 시각 장애인을 위한 AI 에이전트 시네스카우트를 소개한다. 이는 거리뷰 이미지를 활용하여 환경적 세부 사항을 제공함으로써 시각 장애인들에게 풍부한 시각 정보를 제공한다.

2025년 7월 7일 오전 12시 00분Apple
확신 토큰을 이용한 학습 루팅 LLMs

대형 언어 모델(Large language models, LLMs)은 다양한 작업에서 탁월한 성능을 보여주며 현재 실제 응용 프로그램에서 증가하고 있습니다. 하지만 특히 고위험 상황에서는 LLM의 출력이 신뢰할 수 없을 때를 알아내는 것이 중요합니다. 이 연구에서는 LLM이 답변에 대한 확신을 신뢰할 수 있는지, 이 신뢰의 개념이 하류 정확도로 어떻게 전환되는지 조사합니다.

2025년 7월 7일 오전 12시 00분Apple
매개변수 대 FLOPs: 최적 희소성에 대한 스케일링 법칙 – 전문가 혼합 언어 모델을 위한

언어 모델 용량 확장은 성능 향상과 새로운 기능 발견에 신뢰할만한 방법이다. 모델 매개변수 및 예제 당 연산량으로 주로 정의되며, 이 두 가지 요소 간의 상호 작용과 전체 용량에 대한 복합 기여는 아직 완전히 이해되지 않았다. 본 논문에서는…

2025년 7월 7일 오전 12시 00분Apple
과업별로 직교하는 진실의 기하학

대형 언어 모델은 다양한 작업에서 탁월한 일반화 능력을 보여주지만, 그 신뢰성에 대한 우려로 여전히 실용적인 중요성을 주장하고 있다. 최근 연구들은 언어 모델의 활성화를 검토하여 질문에 대한 답변이 올바른지 평가하는 것을 제안했다. 몇몇 연구는 예시에서 “진실의 기하학”이 학습될 수 있다고 주장한다.

2025년 7월 7일 오전 12시 00분Apple
최고 전문가를 개인 정보 보호하에 추적하기

동적 후회를 가진 전문가 의견 예측 문제에 대한 차별적 개인 알고리즘을 설계합니다. 변화하는 분포에 대한 확률론적 적대자, 맹목적 적대자 및 적응적 적대자 세 가지 유형의 적대자에 대응하고, 모든 경우에 대해 하위 선형 후회를 갖는 알고리즘을 설계합니다. 특히, 분포가 S번 변할 수있는 시간에 대해 ε-차별적 개인 알고리즘을 제공하며, 예상 동적 후회는 O(STlog(NT)+Slog(NT)ε)입니다.

2025년 7월 7일 오전 12시 00분Apple
Mamba에서의 입력 선택성 이해

최근 State-Space Models (SSMs) 중 하나인 Mamba는 Transformers에 유망한 대안으로 부상했다. Mamba는 입력 선택성을 도입하여 SSM 레이어(S6)에 소성과 게이팅을 통합시킨다. 이러한 수정은 Mamba의 성능을 향상시키지만, 입력 선택성이 추가 기능과 상호작용하는 방식은 여전히 명확하지 않다. 본 연구에서는 Mamba에서의 입력 선택성 역할을 명확히하고, 이것이 Mamba 아키텍처의 다른 작업들과 상호작용하는 방식을 조사했다.

2025년 7월 4일 오전 12시 00분Apple
LLMs를 위한 불확실성 인식 공정성 평가

대형 언어 모델(LLMs)의 급속한 채택은 그들의 공정성을 벤치마킹하는 중요성을 강조합니다. 이에 따라 모델의 불확실성을 고려한 새로운 공정성 측정 기준 UCerF를 제안하였습니다. 이는 모델의 내부 편향을 더 잘 반영하여 모델의 공정성을 세밀하게 평가할 수 있습니다.

2025년 7월 4일 오전 12시 00분Apple
전문가 모델 사전 학습을 통한 전문가 모델의 평균

다양한 데이터 소스의 혼합물로 대규모 모델이 교육되고, 다양한 데이터 혼합물은 매우 다른 하류 성능을 얻는다. 이에 따라 모델을 다시 교육할 필요 없이 각 데이터 혼합물에 대한 모델을 생성할 수 있는 새로운 아키텍처를 제안한다. 이 아키텍처는 전문가 가중치 은행으로 구성되어 있으며, 입력 히스토그램의 함수로 선형 결합 계수를 학습한다. 이 아키텍처를 교육하기 위해 무작위 히스토그램을 샘플링하고 해당 모델을 생성한 후 데이터 배치를 통해 역전파한다.

2025년 7월 4일 오전 12시 00분Apple
대형 언어 모델의 슈퍼 가중치

대형 언어 모델의 일부 파라미터가 모델의 품질에 지대한 영향을 미친다는 연구 결과가 나왔다. 작은 비율의 파라미터가 모델의 품질에 중요하며, 하나의 파라미터도 제거하면 모델의 텍스트 생성 능력이 파괴될 수 있다. 이를 식별하기 위한 데이터 없는 방법을 제안한다.

2025년 7월 2일 오전 12시 00분Apple
대규모 에고센트릭 비디오로부터 솜씨있는 조작 학습하기

데이터 부족 문제를 해결하기 위해 에고센트릭 인간 비디오를 활용한 솜씨있는 조작 학습. EgoDex라는 최대 규모와 다양성을 갖춘 데이터셋 구축.

2025년 7월 1일 오전 12시 00분Apple
상호작용에서 영향으로: 이해와 평가를 통해 안전한 AI 에이전트로

AI 에이전트가 사용자 인터페이스를 조작하여 일상 업무를 관리하는 데 집중한 최근 연구. 이 연구는 AI 에이전트의 행동이 미치는 영향과 결과를 조사하고, 특히 위험하거나 되돌릴 수 없는 행동에 대해 탐구함. 모바일 UI 조작의 영향에 대한 분류체계 개발을 통해 연구 시작.

2025년 6월 30일 오전 12시 00분Apple
대조적 지역화 언어-이미지 사전 훈련

CLIP는 이미지/텍스트 표현을 생성하는 비전 인코더를 훈련하는 데 사용되는 인기 있는 방법이며, 최근에는 다양한 응용 프로그램을 용이하게 하는 다중 언어 모델의 비전 백본으로 널리 채택되었습니다. 그러나 CLIP의 성공은 이미지 수준에서의 웹 크롤링된 노이즈 텍스트 주석을 정렬하는 데 의존하는데, 이러한 기준은 특히 세부 비전 표현이 필요한 하위 작업에 대해 충분하지 않을 수 있습니다.

2025년 6월 30일 오전 12시 00분Apple
다모달 대형 언어 모델을 활용한 자아중심 비디오 질문 응답 발전

이 연구는 자아중심 비디오 질문 응답에 다모달 대형 언어 모델이 어떻게 적용되는지 평가하고 있다. 긴 시간 범위의 시간적 추론, 일인칭 시점, 자주 발생하는 카메라 움직임과 같은 과제를 처리해야 한다. QaEgo4Dv2 데이터셋에서 4가지 인기 MLLM을 평가하며 주석 노이즈를 줄이기 위해 QaEgo4Dv2를 소개한다.

2025년 6월 30일 오전 12시 00분Apple
코드 생성 LLMs에서의 장거리 의존성 처리 평가

언어 모델이 더 많은 문맥을 지원할수록 그 문맥을 효과적으로 활용하는 능력을 평가하는 것이 점점 중요해진다. 여러 코드 생성 모델이 장거리 종속성을 처리하는 능력을 분석했으며, 8k 토큰 길이의 컨텍스트 창에서 다중 단계 키 검색 작업을 사용하여 모델 능력을 평가했다. 성능이 많은 모델에서 크게 감소하는 것으로 나타났다.

2025년 6월 30일 오전 12시 00분Apple
텍스트 대비 비디오 정렬의 평가: 미세한 질문 생성 및 답변을 통해

텍스트 대비 생성된 비디오의 의미적 정렬을 정확히 평가하는 것은 여전히 도전적이다. 기존의 텍스트 대비 비디오 정렬 메트릭인 CLIPScore는 미세한 정렬 세부사항을 생성하지 못하여 인간의 선호와 일치하지 못한다. 이 한계를 극복하기 위해 우리는 ETVA라는 새로운 텍스트 대비 비디오 정렬 평가 방법을 제안한다. 이 방법은 미세한 질문 생성과 답변을 통해 텍스트 대비 비디오의 정렬을 평가한다.

2025년 6월 30일 오전 12시 00분Apple
Cavia: 카메라 제어 가능한 멀티뷰 비디오 확산과 뷰 통합 주의

Cavia는 카메라 제어가 가능한 멀티뷰 비디오 생성을 위한 혁신적인 프레임워크로, 입력 이미지를 다양한 카메라 경로로 일관된 비디오로 변환할 수 있다.

2025년 6월 30일 오전 12시 00분Apple
대형 언어 모델을 위한 명령 따르기 가지치기

대형 언어 모델의 신속한 확장으로 구조화된 가지치기가 보다 효율적이고 우수한 성능을 제공하는 작은 모델을 학습하는 데 널리 사용되고 있다. 이 논문에서는 모델에 대한 고정된 가지치기 마스크를 결정하는 전통적인 정적 가지치기 접근법을 넘어서 사용자 지시에 설명된 정보를 기반으로 가지치기 마스크를 동적으로 조정하는 방법을 제안한다.

2025년 6월 30일 오전 12시 00분Apple
언어 모델에서 불확실성 측정 재방문: 응답 길이 편향 결과와의 잘못된 상호작용

언어 모델의 불확실성 측정은 안전성과 신뢰성 향상에 중요하다. AUROC와 같은 메트릭을 사용하여 UQ 방법이 작업 정확성 함수와 얼마나 잘 상관하는지를 평가하는데, 상호 편향은 평가를 왜곡시킬 수 있다. 상호 편향이 AUROC 순위를 왜곡시키는 것을 공식적으로 증명하고, 7가지 방법을 테스트하여 이를 확인했다.

2025년 6월 20일 오전 4시 35분Apple
변분 정정 흐름 매칭

본 연구는 다중 모달 속도 벡터 필드를 모델링하여 클래식한 정정 흐름 매칭을 향상시키는 변분 정정 흐름 매칭을 탐구합니다. 추론 시간에는 소스 분포에서 대상 분포로 샘플을 ‘이동’시키는 과정으로 속도 벡터 필드를 통해 보통 미분 방정식을 해결합니다. 훈련 시간에는 속도 벡터 필드를 소스와 대상 분포에서 무작위로 추출된 결합된 샘플 사이를 선형 보간하여 학습합니다.

2025년 6월 20일 오전 12시 00분Apple
주변 공간에서 INRs을 위한 Flow Matching

Flow matching 모델은 이미지나 비디오와 같은 도메인뿐만 아니라 3D 포인트 클라우드나 단백질 구조와 같은 불규칙하거나 구조화되지 않은 데이터에 대한 생성 모델링에 강력한 방법으로 등장했습니다. 이 두 단계 패러다임은 서로 다른 데이터 도메인에 대해 손수 제작된 압축기 아키텍처가 사용되기 때문에 모델의 통합을 방해합니다.

2025년 6월 20일 오전 12시 00분Apple
데이터 처리 불평등을 통한 데이터 기억의 트레이드오프

대형 언어 모델을 훈련하는 것은 상당 부분의 데이터 기억을 포함한다는 최근 연구 결과가 있다. 이 기억은 민감한 사용자 데이터를 기반으로 훈련할 때 개인 정보 침해로 이어질 수 있으며, 이는 데이터 기억이 학습에서 어떤 역할을 하는지에 대한 연구를 촉발한다. 이 연구에서는 강력한 데이터 처리 불평등과 데이터 기억 사이의 새로운 연결을 통해 초과 데이터 기억에 대한 하한선을 증명하기 위한 일반적인 방법을 개발한다.

2025년 6월 20일 오전 12시 00분Apple
LLMs의 비지도 미세조정을 위한 스케일링 법칙

특정 도메인에서 잘 작동하는 언어 모델을 얻기 위한 보편적인 전략은 해당 도메인의 데이터를 사용하여 비지도 다음 토큰 예측을 훈련시키는 것이다. 하지만 미세조정은 목표 데이터의 양이 제한적인 경우 빠르게 과적합될 수 있고, 원래 모델에서 벗어나 사전 훈련 분포를 잊을 수 있다. 이 논문은 이러한 두 현상을 몇 가지 목표 도메인, 사용 가능한 목표 데이터 및 모델 스케일에 대해 정량화한다.

2025년 6월 20일 오전 12시 00분Apple
정규화 흐름은 강력한 생성 모델이다

정규화 흐름(NFs)은 연속적인 입력에 대한 우도 기반 모델로, 밀도 추정과 생성 모델링 작업에서 유망한 결과를 보여주었으며, 이번 연구에서 NFs가 예상보다 강력함을 입증하고 있다. TarFlow는 NF 모델의 성능을 높일 수 있는 간단하고 확장 가능한 아키텍처로, 이미지 패치 위에 자기회귀 Transformer 블록의 스택으로 이루어진 MAFs의 변형으로 볼 수 있다.

2025년 6월 20일 오전 12시 00분Apple
음성 검색 오류 수정을 위한 음운론적 보강 판별 재점수화

높은 품질의 데이터를 확보하는 것이 비용이 많이 드는 End-to-end (E2E) 자동 음성 인식 (ASR) 모델을 훈련시킬 때 어려움을 겪는다. 이 논문에서는 E2E ASR 시스템의 훈련 데이터에 충분히 표현되지 않는 최근이나 드문 영화 제목과 같은 쿼리들에 대한 음운론적 보정 시스템을 제안한다.

2025년 6월 20일 오전 12시 00분Apple
다국어 모델에서 형태와 의미를 차별하는 미니멀 페어 ABX 태스크

이 연구는 다국어 언어 모델이 언어 식별(형태)과 의미 내용(의미)을 어떻게 표현하는지를 평가하기 위한 훈련이 필요 없는 ABX 스타일의 차별화 작업을 소개한다. XLM-R에 적용된 결과, 언어 차별이 훈련 과정에서 감소하고 하위 레이어에 집중됨을 발견했다.

2025년 6월 13일 오전 12시 00분Apple
애플 머신러닝 연구팀, CVPR 2025에서 연구 발표

애플 연구원들이 기본 연구를 통해 AI 및 머신러닝을 발전시키고 있으며, CVPR 학회에 참여하여 새로운 연구를 발표할 예정이다. 애플은 컴퓨터 비전 및 패턴 인식 학회에 참여하여 연구 결과를 공유하고 있다.

2025년 6월 10일 오전 12시 00분Apple
Apple의 기기 내 및 서버 기반 언어 모델 업데이트

Apple은 개인정보 보호를 유지하면서 강력한 생성형 AI를 앱과 경험에 통합하고 있습니다. 2025 Worldwide Developers Conference에서 최신 소프트웨어에서 Apple Intelligence 기능을 향상시키기 위해 특별히 개발된 새로운 세대의 언어 기반 모델을 소개했습니다. 또한 앱 개발자들이 Apple Intelligence 핵심인 기기 내 기반 언어 모델에 직접 액세스할 수 있는 새로운 Foundation Models framework도 소개했습니다.

2025년 6월 9일 오전 12시 00분Apple
Proxy-FDA: Proxy를 활용한 시각 기반 모델 세부 조정을 위한 특징 분포 맞춤

대량 데이터로 사전 훈련된 시각 기반 모델은 현실 세계 개념의 풍부한 표현을 인코딩하며, 세부 작업에 맞게 조정될 수 있다. 그러나 하나의 작업에 모델을 세밀 조정하는 것은 종종 다른 작업에서 개념을 잊어버리는 문제를 야기한다. 최근 견고한 세부 조정 방법은 사전 지식을 잊지 않으면서 세부 조정 성능을 향상시키는 것을 목표로 한다.

2025년 6월 5일 오전 12시 00분Apple
이상적이지 않은 말과 감정을 위한 해석 가능한 기본 요소로서의 음성 품질 차원

이상적이지 않은 말과 다른 말 조절의 주요 특성을 설명하는 지각적 음성 품질 차원을 개발하고 평가했습니다. 434명의 화자로부터 11,184개 샘플을 사용하여 퍼블릭 스피치 접근성(SAP) 프로젝트 데이터셋에서 음성 품질 모델을 개발하고 평가했습니다. 우리는 우리의 조사가 강력한 성능과 강력한 일반화를 보여주었음을 발견했습니다.

2025년 6월 5일 오전 12시 00분Apple
사고의 환상: 문제 복잡성의 렌즈를 통해 추론 모델의 강점과 한계 이해하기

최근의 선두 언어 모델은 상세한 사고 과정을 생성하는 대규모 추론 모델(LRMs)을 소개했다. 이러한 모델은 추론 벤치마크에서 뛰어난 성능을 보이지만, 기본적인 능력, 확장 성질 및 한계에 대한 이해는 여전히 미흡하다. 현재의 평가는 주로 수학적 및 코딩 벤치마크에 초점을 맞추며, 최종 답변 정확도를 강조한다. 그러나 이러한 평가 패러다임은 종종 데이터 오염 문제를 겪으며 추론 추적에 대한 통찰을 제공하지 않는다.

2025년 6월 5일 오전 12시 00분Apple
시각 언어 모델 체인 오브 씨토트 추론 향상

시각 언어 모델의 씨토트 추론은 해석 가능성과 신뢰성을 향상시키는 데 중요하다. 현재의 훈련 방법은 짧은 주석으로 지배된 데이터셋에 의존하고 있는데, 이는 자세한 설명이 필요한 추론 작업에서 일반화가 부족하다는 한계가 있다. 이 한계를 극복하기 위해 짧은 답변 데이터를 확장한 두 단계의 후훈련 전략을 제안한다.

2025년 6월 5일 오전 12시 00분Apple
텍스트 압축을 넘어: 다양한 규모에서 토크나이저 평가하기

토크나이저 디자인은 언어 모델 성능에 상당한 영향을 미치지만, 토크나이저 품질을 평가하는 것은 여전히 어렵다. 최근 연구에서는 텍스트 압축이 일반적인 내재적 측도로 등장했지만, 신뢰성이 의문되고 있다. 저자들은 작은 모델(350M 매개변수)에서 토크나이저를 평가하는 것이 큰 규모(2.7B 매개변수)에서의 영향을 신뢰할 수 있는지 조사했다. 널리 사용되는 언어 모델의 토크나이저를 실험한 결과, 토크나이저 선택은 영어 작업에는 거의 영향을 주지 않지만, 중요한 차이를 보여준다.

2025년 6월 5일 오전 12시 00분Apple
2025년 IEEE/CVF 컴퓨터 비전 및 패턴 인식(CVPR) 컨퍼런스

2025년 6월 11일부터 15일까지 테네시 주 내슈빌에서 개최되는 IEEE/CVF 컴퓨터 비전 및 패턴 인식(CVPR) 컨퍼런스에 Apple이 후원사로 참여할 예정이다. 이 컨퍼런스는 주요 컨퍼런스와 여러 공동 워크샵 및 단기 과정으로 구성된 매년 열리는 컴퓨터 비전 행사이다.

2025년 6월 4일 오전 12시 00분Apple
다국어 간 전이에서 언어 유사성이 미치는 영향 분석: 작업과 입력 표현이 중요

다국어 간 전이는 NLP 작업의 훈련 데이터 양을 늘리는 인기있는 방법이지만, 어떤 다국어 데이터를 포함해야 하는지에 대한 최적 전략은 명확하지 않다. 본 연구에서는 263개 언어에 대한 다국어 간 전이를 분석하여 이 질문에 기여하고 있다. 세 가지 인기 NLP 작업을 포함한다.

2025년 6월 4일 오전 12시 00분Apple
개선된 원문 대본 전사와 엔드 투 엔드 미스큐 탐지를 위한 프롬프팅 휘스퍼

현재의 읽기 오류 주석 방법을 개선하기 위해 대상 독해 텍스트를 프롬프팅하여 원문 전사 및 직접 미스큐 탐지를 위해 훈련된 혁신적인 엔드 투 엔드 아키텍처를 제안합니다.

2025년 6월 3일 오전 12시 00분Apple
증류 스케일링 법칙

증류 스케일링 법칙은 학생과 선생님 간의 컴퓨팅 예산 및 할당을 기반으로 증류된 모델 성능을 예측하는 법칙이다. 컴퓨팅 최적 할당을 통해 학생 성능을 극대화하여 대규모 증류와 관련된 위험을 완화한다. 기존 선생님이 있는 경우와 선생님을 훈련해야 하는 경우에 대한 컴퓨팅 최적 증류 레시피를 제공한다.

2025년 6월 3일 오전 12시 00분Apple
SpeakStream: 인터리브된 데이터로 스트리밍 텍스트 음성 변환

말 앞단과 대형 언어 모델의 점점 더 통합되는 환경에서 이 모달리티를 통합하는 아키텍처를 탐구하는 필요성이 있다. 우리는 전통적인 텍스트 음성 변환 시스템을 사용하여 LLM 출력을 오디오로 변환하는 ‘스트리밍’ TTS를 제안한다.

2025년 5월 30일 오전 12시 00분Apple
명시적 3D 모델링을 통한 세계 일관성 있는 비디오 확산

확산 모델이 시각적 콘텐츠 생성을 주도하는 가운데, 이러한 모델을 3D 콘텐츠를 만들기 위해 다중 뷰 이미지 생성에 적응시키는 노력이 이루어졌다. 우리는 RGB 프레임과 함께 정규화된 좌표 공간(Normalized Coordinate Space, NCS) 프레임을 생성하는 것을 제안한다. NCS 프레임은 각 픽셀의 전역 좌표를 캡처하여 강력한 픽셀 대응과 3D 일관성을 위한 명시적 지도를 제공한다.

2025년 5월 30일 오전 12시 00분Apple
대규모 언어 모델을 위한 간헐적 추론: 강화 학습을 통해

이 연구는 대규모 언어 모델의 추론 능력을 향상시키는 긴 사고 체인이 시간 효율성 및 첫 번째 토큰 도달 시간에 미치는 영향을 분석하고, 강화 학습을 활용하여 다중 단계 질문에 대한 간헐적 추론을 유도하는 새로운 학습 패러다임을 제안한다. 모델이 간헐적 추론을 수행할 수 있는 능력을 강화하기 위해 간단하면서도 효과적인 규칙 기반 보상 시스템을 도입한다.

2025년 5월 28일 오전 12시 00분Apple
청진으로부터 심박수 추정을 위한 Foundation Model Hidden Representations

최근 자가 감독 음향 표현 기반 모델(FMs)이 제안되어 음향 기반 생리학적 정보를 제공하는데 사용되어 왔다. 본 연구는 공개된 PCG 데이터셋과 심박수(HR) 추정 모델을 사용하여 여섯 가지 음향 표현 FMs의 층별 조사를 수행하였다.

2025년 5월 28일 오전 12시 00분Apple
CLIP-UP: 간단하고 효율적인 Mixture-of-Experts CLIP 학습 레시피와 희소 업사이클링

CLIP-Upcycling (CLIP-UP)은 밀집형 CLIP 모델을 희소 MoE 아키텍처로 변환하는 효율적인 대체 학습 전략으로, 훈련 복잡성과 비용을 현저히 줄인다. 다양한 설정과 보조 손실을 활용한 방대한 실험을 통해 CLIP-UP은 훈련 복잡성과 비용을 크게 낮추는 것을 입증했다.

2025년 5월 27일 오전 12시 00분Apple
데이터 효율적 다중모달 학습을 위한 제어 가능한 이미지-텍스트 합성 기술

대규모 데이터셋에 대한 의존성을 줄이기 위해 생성 모델을 사용하는 CtrlSynth 기술 소개. 기존 방법과 달리 이미지와 텍스트를 모두 지원하며 합성과정을 세밀하게 제어할 수 있어 데이터 다양성을 높일 수 있음.

2025년 5월 27일 오전 12시 00분Apple
대형 언어 모델의 텐서 병렬성을 효율적으로 하는 SPD: Sync-Point Drop

대규모 언어 모델의 규모가 급격하게 증가함에 따라 여러 컴퓨팅 유닛 간의 효율적인 분산 추론이 점점 중요해지고 있다. 그러나 텐서 병렬성과 같은 인기 있는 분산 추론 기술로 인한 통신 오버헤드는 확장성과 낮은 지연 시간을 달성하는데 중요한 도전 요소이다. 따라서 통신 오버헤드를 줄이기 위해 주의도를 기울여 동기화를 선택적으로 제거하는 싱크포인트 드롭(SPD) 최적화 기술을 소개하고 있다.

2025년 5월 22일 오전 12시 00분Apple
좋은 입체 이미지를 만드는 요소는 무엇인가요?

가상 현실(VR) 헤드셋의 급속한 발전으로 입체 품질 경험(SQoE)의 효과적인 측정이 중요해졌다. 기존의 입체 메트릭은 주로 시각적 불편함이나 이미지 품질과 같은 특정 측면에 초점을 맞추었으며 데이터 한계에 직면해왔다. 이를 해결하기 위해 실제와 합성된 입체 이미지로 구성된 SCOPE(입체 콘텐츠 선호도 평가) 데이터 세트를 제시한다.

2025년 5월 22일 오전 12시 00분Apple
인간형 로봇을 위한 정책 학습

다양한 데이터로 인간형 로봇을 훈련시키는 것은 그들의 견고성과 과제 및 플랫폼 간의 일반화를 향상시킨다. 본 논문은 인간의 자가 중심의 시범을 더 확장 가능한 데이터 원천으로 조사하여 로봇 학습을 위한 훈련 데이터로 활용한다. 우리는 인간형 로봇과 인간 사이의 구현 갭을 데이터 및 모델링의 관점에서 완화한다.

2025년 5월 21일 오전 12시 00분Apple
Cubify Anything: 실내 3D 물체 검출 확장

Cubify Anything은 실내 3D 물체 검출을 위해 새로운 데이터셋과 모델링을 도입하고 있습니다. 기존 데이터셋의 한계를 극복하기 위해 Cubify-Anything 1M (CA-1M) 데이터셋을 소개하고 있으며, 이를 통해 400K개 이상의 3D 물체를 라벨링하고 1K개 이상의 정확한 레이저 스캔 장면과 3.5K개 이상의 핸드헬드 캡처와 연계시켰습니다.

2025년 5월 21일 오전 12시 00분Apple
다대다 언어 모델이 영어 강세인가? 다국어 LLM의 자연함 평가와 개선

현재 대규모 언어 모델(LLMs)은 주로 영어를 주요 언어로 사용하며, 몇 안 되는 다국어 모델조차도 영어 중심적인 편향을 보입니다. 이 연구에서는 다국어 LLM의 자연함을 평가하고 개선하는 방법에 대해 다룹니다. LLMs는 영어가 아닌 언어에서 자연스럽지 않은 결과물을 생성할 수 있으며, 이는 어휘와 문법에서 영어 중심적인 패턴을 반영합니다.

2025년 5월 16일 오전 12시 00분Apple
오프라인 비디오 대형 언어 모델을 프로액티브 스트리밍 어시스턴트로 변환하는 StreamBridge

StreamBridge는 오프라인 비디오 대형 언어 모델을 스트리밍 가능한 모델로 변환하는 효과적인 프레임워크이다. 이는 기존 모델을 온라인 시나리오에 적응시키는데 두 가지 주요 도전 과제를 해결한다: 실시간 다중 대화 이해 능력의 한계와 선행적인 응답 메커니즘의 부재.

2025년 5월 12일 오전 12시 00분Apple
Matrix3D: 대형 사진 측량 모델 올인원

Matrix3D는 동일한 모델을 활용하여 포즈 추정, 깊이 예측, 신규 뷰 합성과 같은 여러 사진 측량 하위 작업을 수행하는 통합 모델이다. Matrix3D는 이미지, 카메라 매개변수, 깊이 맵과 같은 여러 모달리티 간의 변환을 통합하기 위해 다중 모달 확산 트랜스포머(DiT)를 활용한다. Matrix3D의 대규모 다중 모달리티 훈련의 핵심은 마스크 학습 전략의 통합에 있다. 이는 이미지-포즈 및 이미지-깊이 쌍과 같은 부분적으로 완전하지 않은 데이터로도 완전한 모달리티 모델 훈련이 가능하게 한다.

2025년 5월 9일 오전 12시 00분Apple
확산 모델의 사영 구성 메커니즘

이 연구는 확산 모델에서의 구성에 대한 이론적 기초를 연구하며, 특히 분포의 조합을 통한 외삽과 길이 일반화에 초점을 맞추고 있습니다. 이전 연구에서는 선형 점수 조합을 통해 분포를 조합하면 길이 일반화를 달성할 수 있다는 것이 밝혀졌으나, 이러한 조합이 왜 동작하는지에 대한 이론적 이해는 아직 미완성 상태입니다. 이 논문은 이러한 기본적인 공백을 다루기 시작합니다.

2025년 5월 1일 오전 12시 00분Apple
연합 분석을 위한 지역 Pan-개인정보 보호

연합 텔레메트리 응용프로그램을 고려하여, 지역 Pan-개인정보 보호에 대한 연구를 진행하고, 연합 시스템에서 이벤트 발생 횟수를 모니터링할 때 지역 장치에서의 이벤트 발생은 심지어 해당 장치의 침입자에게도 숨겨져야 함을 보여줌.

2025년 5월 1일 오전 12시 00분Apple
분류기 없는 가이드는 예측자-교정자이다

이 연구는 분류기 없는 가이드(CFG)의 이론적 기초를 조사한다. CFG는 텍스트-이미지 확산 모델의 조건부 샘플링의 주요 방법이지만, 다른 확산 측면과 달리 이론적 기반이 불안정하다. 이 논문에서는 CFG가 DDPM 및 DDIM과 다르게 상호작용하며 CFG와 함께 사용된 어떤 샘플러도 gamma-제곱 분포 p(x|c)^γp(x)^{1−γ}를 생성하지 않음을 보여준다. 그리고 CFG의 행동을 명확히 하기 위해 이것이 예측자-교정자 방법의 한 종류이다는 것을 보여준다.

2025년 5월 1일 오전 12시 00분Apple
개선된 샘플 복잡도를 가진 개인용 부드럽지 않은 비볼록 최적화

미분적으로 개인 정보 보호(DP) 최적화 알고리즘을 연구하고 부드럽지도 볼록하지도 않은 확률적 및 경험적 목적 함수에 대해 제안되며, 기존 작업을 개선하는 샘플 복잡도 한계를 가진 방법을 제안합니다.

2025년 5월 1일 오전 12시 00분Apple
분포 속성을 확인하는 방법: 분포를 위한 계산적으로 안전한 주장 시스템

통계 분석이 과학, 산업 및 사회에서 중요해지면서 결과의 정확성을 보장해야 하는 필요성이 커지고 있다. 복제를 통해 근사 정확성을 확인할 수 있지만, 복제 없이도 확인할 수 있는 방법은 없을까? 최근 연구를 기반으로, 결과가 대략적으로 정확한지 확률적으로 확인할 수 있는 증명 시스템을 연구하고 있다.

2025년 4월 24일 오전 12시 00분Apple
앱 스토어 리뷰 요약에 대한 LLM 기반 접근

앱 스토어의 평가와 리뷰는 사용자들이 앱을 탐색할 때 소중한 자원이다. iOS 18.4에서 리뷰 요약이 제공되면서 사용자들은 앱에 대한 다른 사용자들의 의견을 빠르게 파악할 수 있다. 이 기능은 새로운, 다단계 LLM 기반 시스템으로 구동되며 주기적으로 사용자 리뷰를 요약한다.

2025년 4월 24일 오전 12시 00분Apple
애플 머신러닝 연구 ICLR 2025에서 진행

애플 연구자들이 머신러닝과 인공지능을 발전시키며 세계의 기술 이해를 개선하고 그 가능성을 재정의하는 데 기여하고 있습니다. 이번 주에는 싱가포르에서 열리는 ICLR 2025에서 주요 딥러닝 전문가들이 모여 representation에 대한 응용을 논의할 예정입니다.

2025년 4월 21일 오전 12시 00분Apple
FastVLM: Vision Language Models를 위한 효율적인 비전 인코딩

고해상도 이미지의 확장은 Vision Language Models (VLMs)의 성능을 향상시키는 데 중요하며, 이를 위해 FastVLM이 개발되었다. ViTs와 같은 인기 있는 비전 인코더는 고해상도에서 비효율적이지만 FastVLM은 인코딩 레이턴시를 줄이고 시각적 토큰 수를 최적화하여 전반적인 레이턴시를 낮춘다.

2025년 4월 18일 오전 12시 00분Apple
Gromov-Monge 갭을 이용한 분리된 표현 학습

레이블이 없는 데이터로부터 분리된 표현을 학습하는 것은 기계 학습에서의 중요한 과제이다. 이를 해결함으로써 일반화, 해석 가능성 또는 공정성과 같은 다른 문제들을 해결할 수 있다. 이론적으로 해결하기 어렵지만, 실제로는 이전 일치를 통해 분리가 종종 이루어진다. 또한, 최근 연구들은 기하학적 고려사항을 활용하여 이전 일치 접근법을 개선할 수 있음을 보여주었다.

2025년 4월 17일 오전 12시 00분Apple
ACM 인간-컴퓨터 상호작용 학회 (CHI) 2025

애플이 ACM 인간-컴퓨터 상호작용 학회 (CHI) 2025에서 새로운 연구를 발표할 예정이며, 이번 행사는 4월 26일부터 5월 1일까지 일본 요코하마에서 진행됩니다. 애플은 이 학회를 후원하며 상호작용 기술에 초점을 맞춘 과학 및 산업 연구 커뮤니티를 결집시키는데 자랑스러워합니다.

2025년 4월 17일 오전 12시 00분Apple
단계별 확산: 초급 튜토리얼

본 논문은 머신러닝을 위한 확산 모델 및 흐름 일치 수학에 대한 접근 가능한 초급 과정을 제시한다. 확산을 가능한 간단하게 가르치고 있으며, 수학적이고 머신러닝에 대한 선행 지식은 최소화했지만, 올바름에 대해 논의할만한 충분한 기술적 세부 정보를 제공한다. 대부분의 튜토리얼과는 달리, Variational Auto Encoder(VAE)나 Stochastic Differential Equations(SDE) 접근 방식을 취하지 않는다. 사실, 핵심 아이디어에는 SDE, ELBO, Langevin dynamics, 심지어 점수 개념이 필요하지 않다. 독자는 단순히…

2025년 4월 16일 오전 12시 00분Apple
DART: 확장 가능한 텍스트-이미지 생성을 위한 Denoising Autoregressive Transformer

DART는 Markov 프로세스 노이즈 제거를 통해 훈련되는 확산 모델의 한계를 극복하기 위해 제안된 transformer 기반 모델로, 비-Markovian 프레임워크 내에서 자기 회귀와 확산을 통합한다. 이미지 패치를 공간적, 스펙트럼적으로 반복적으로 노이즈 제거하며 텍스트에서 이미지를 생성한다.

2025년 4월 16일 오전 12시 00분Apple
네이티브 다중 모달 모델의 스케일링 법칙

현재의 다중 모달 모델은 사전 훈련된 구성 요소를 통합하는 방식을 사용하는데, 이에 대한 late-fusion 아키텍처의 우월성이 여전히 논란이다. 본 연구에서는 네이티브 다중 모달 모델(NMMs)의 구조적 설계를 재방문하고 모든 modalities에 대해 처음부터 훈련된 모델을 탐구한다.

2025년 4월 16일 오전 12시 00분Apple
2025년 국제학습표현학회 (ICLR)

2025년 4월 24일부터 28일까지 싱가포르에서 개최되는 국제학습표현학회(ICLR)를 애플이 후원할 예정이다. 깊은 학습의 발전에 헌신하는 전문가들이 모인다.

2025년 4월 16일 오전 12시 00분Apple
자기 회귀 모델로부터 적응을 통한 확산 언어 모델 확장

확산 언어 모델(DLMs)은 텍스트 생성 모델링을 위한 유망한 새로운 패러다임으로 등장했으며, 자기 회귀(AR) 모델의 한계를 해결할 수 있는 잠재력이 있다. 그러나 현재의 DLMs는 AR 모델에 비해 작은 규모에서 연구되었으며, 언어 모델 벤치마크에서 공정한 비교가 부족하다. 또한, 대규모로부터 DLMs를 처음부터 훈련시키는 것은 여전히 어렵다. 이에 우리는 오픈 소스 AR 언어 모델의 보급으로부터 이러한 모델들을 적응시켜 텍스트 확산 모델을 구축하는 것을 제안한다.

2025년 4월 16일 오전 12시 00분Apple
자기 회귀 모델로부터 적응을 통한 확산 언어 모델 확장

확산 언어 모델(DLMs)은 텍스트 생성 모델링을 위한 유망한 새로운 패러다임으로 등장했으며, 자기 회귀(AR) 모델의 한계를 해결할 수 있는 잠재력이 있다. 그러나 현재의 DLMs는 AR 모델에 비해 작은 규모에서 연구되었으며, 언어 모델 벤치마크에서 공정한 비교가 부족하다. 또한, 대규모로부터 DLMs를 처음부터 훈련시키는 것은 여전히 어렵다. 이에 우리는 오픈 소스 AR 언어 모델의 보급으로부터 이러한 모델들을 적응시켜 텍스트 확산 모델을 구축하는 것을 제안한다.

2025년 4월 16일 오전 12시 00분Apple
CoMotion: 동시 다중 인물 3D 모션

단일 단안 카메라 스트림으로부터 여러 사람의 자세를 감지하고 추적하는 방법 소개. 복잡한 자세와 가려진 장면에서 시간적으로 일관된 예측을 유지. 강력한 프레임별 감지와 학습된 자세 업데이트를 수행하여 프레임 간 사람을 추적. 감지를 시간에 따라 매칭하는 대신, 자세는 새 입력 이미지에서 직접 업데이트되어 가려짐을 통해 온라인 추적 가능.

2025년 4월 15일 오전 12시 00분Apple
EC-DIT: 스케일링 디퓨전 트랜스포머와 적응적 전문가 선택 라우팅

디퓨전 트랜스포머를 스케일업하여 수십억 개의 파라미터로 확장하는 것이 유망하나, 현재 크기 이상으로 스케일링하는 효과는 여전히 탐구 중이며 어렵다. EC-DIT는 이미지 생성의 계산적 이질성을 명시적으로 이용하여 전문가 선택 라우팅을 사용하는 디퓨전 트랜스포머용 새로운 MoE 모델을 개발한다. EC-DIT는 입력 텍스트를 이해하고 해당 이미지 패치를 생성하기 위해 할당된 계산을 적응적으로 최적화하는 방법을 학습한다.

2025년 4월 15일 오전 12시 00분Apple
TIS-DPO: 토큰-레벨 중요도 샘플링을 통한 직접적인 선호도 최적화

대규모 언어 모델의 선호도 조정을 위해 DPO가 널리 사용되고 있지만 토큰 간 중요도 차이를 무시하여 최적화 효율성에 영향을 줄 수 있음. 이에 TIS-DPO를 제안하여 토큰 간 중요도를 고려한 최적 데이터를 제시함.

2025년 4월 15일 오전 12시 00분Apple
FocalLens: Instruction Tuning이 제로샷 조건부 이미지 표현을 가능하게 함

이 논문은 ICLR 2025의 Foundation Models in the Wild 워크샵에서 받아들여졌다. 이미지의 시각적 이해는 본질적으로 맥락에 의존적이며, 이미지에서 주목하는 대상은 주어진 작업에 따라 달라진다. 대부분의 기존 이미지 인코딩 패러다임은 이미지를 고정된 범용 특징 벡터로 표현하는데, 다양한 시각 정보를 우선순위에 따라 다르게 처리하는 잠재적 필요성을 간과한다.

2025년 4월 14일 오전 12시 00분Apple
Apple 인텔리전스를 위한 민감한 프라이버시를 활용한 집계 트렌드 이해

Apple은 민감한 프라이버시를 중요시하며, Differential Privacy와 같은 기술을 활용하여 제품 사용 통계를 분석하고 사용자 프라이버시를 보호합니다. 이러한 필요성은 Apple 인텔리전스에서도 중요하며, 사용자들의 데이터를 보호하면서 사용 트렌드를 이해하는 것이 목표입니다.

2025년 4월 14일 오전 12시 00분Apple
MM-Ego: Egocentric Multimodal LLMs 구축을 향하여

이 연구는 에고센트릭 비디오 이해를 위한 다중 모달 기반 모델을 철저히 탐구한다. 에고센트릭 비디오 이해를 위한 QA 데이터 부족 문제를 해결하기 위해 Ego4D에서 30초부터 1시간까지의 에고센트릭 비디오에 대한 7백만개의 고품질 QA 샘플을 자동으로 생성한다. 이는 가장 큰 에고센트릭 QA 데이터셋 중 하나이다. 또한 629개의 비디오와 7,026개의 질문으로 구성된 어려운 에고센트릭 QA 벤치마크를 제공하여 모델의 인식 능력을 평가한다.

2025년 4월 11일 오전 12시 00분Apple