staging.mijutoday.com

LiTo는 객체의 3D 형상과 시점에 따른 외관을 동시에 모델링하는 새로운 3D 잠재 표현 방식을 제안한다. 기존 연구들이 형상 재구성이나 시점 독립적 확산 외관 예측에 집중한 반면, LiTo는 시점 의존적 효과를 효과적으로 포착한다.

2026년 3월 12일 오전 12시 00분Apple

다중 주파수 퓨전을 이용한 견고한 비디오 얼굴 위조 검출

두 가지 수작업 신호를 결합하는 경량화된 퓨전 모델을 활용하여 더 작은 모델로 더 높은 정확도를 달성하는 것을 보여줌. 저주파수 웨이블릿-노이즈 제거 특징과 공간-위상 얕은 학습 맵을 결합하는 LFWS, 그리고 지역 이진 패턴과 WDF를 병합하는 LFWL을 소개. 이 추가 모듈은 292개의 파라미터만 추가되어 총 21.9백만 파라미터로 유지됨.

2026년 3월 6일 오전 12시 00분Apple

GenCtrl -- 생성 모델을 위한 형식적 제어 도구킷 #

생성 모델이 흔해지면서 생성 프로세스에 대한 세밀한 제어가 필요하다. 이 연구에서는 모델의 제어 가능성에 대한 이론적 프레임워크를 제공하며, 대화 설정에서 모델의 제어 가능한 집합을 추정하기 위한 새로운 알고리즘을 제안한다. 추정 오차에 대한 형식적 보증을 제공한다. #

2026년 3월 6일 오전 12시 00분Apple

반반 이산 결합을 이용한 플로우 매칭

시간에 따른 속도장으로 매개변수화된 플로우 모델은 ODE를 통해 노이즈에서 데이터를 생성할 수 있다. 이 모델들은 종종 플로우 매칭을 사용하여 훈련되는데, 이는 무작위 노이즈와 타겟 지점 쌍을 샘플링하고, 평균적으로 속도장이 x1−x0에 맞게 정렬되도록 보장하는 것이다.

2026년 3월 6일 오전 12시 00분Apple

EMBridge: EMG 신호를 통해 제스처 일반화 향상시키기

EMBridge는 EMG 신호를 통해 제스처 예측을 개선하는데 사용되며, 고품질 데이터와 저전력 생체 신호를 결합하여 제스처 일반화를 가능하게 합니다.

2026년 3월 3일 오전 12시 00분Apple

환각 구간 탐지를 위한 추론 학습

대형 언어 모델은 종종 신뢰성을 저해하는 지지 않는 콘텐츠를 생성하는데, 이를 환각이라고 한다. 환각 구간을 식별하는 것은 다단계 의사 결정 과정이 필요한데, 명시적 추론이 이 복잡한 작업을 돕는지에 대한 질문을 냈다. 사전 훈련된 모델을 Chain-of-Thought (CoT) 추론과 함께 평가한 결과, CoT 추론이 최소한...

2026년 3월 3일 오전 12시 00분Apple

지능과 판단을 분리할 수 없음에 대한 불가능성: AI 정렬을 위한 필터링의 계산적 불가능성

대형 언어 모델(Large Language Models, LLMs)의 확대 배포로 인해 발생할 수 있는 해로운 콘텐츠 생성에 대한 우려가 있음. 연구는 안전하지 않은 정보 생성을 방지하기 위한 필터에 초점을 맞추며 계산적 도전 과제를 밝힘. 입력 프롬프트 필터링과 출력 필터링의 어려움을 보여줌.

2026년 3월 3일 오전 12시 00분Apple

우리가 주목하는 방식, 그것이 정말 중요한 이유: 독특한 변형을 통한 UI 구성 요소의 즉시화

프론트엔드 개발자들은 UI 구성 요소를 매개변수화하여 재사용성을 높이지만, 이는 인스턴스화를 어렵게 만든다. 이를 해결하기 위해 구별 가능한 변형을 도입하여 디자인 공간 샘플링과 심볼적 추론을 결합하고 있다.

2026년 2월 27일 오전 12시 00분Apple

앱 스토어 순위 증대를 위한 LLM-생성 판단 추가

사용자가 찾는 내용을 돕기 위해 대규모 상업 검색 시스템은 관련성에 최적화되며, 이를 위해 행동적 관련성과 텍스트 관련성을 활용하는데 전문가가 제공하는 텍스트 관련성 라벨이 부족한 문제를 해결하기 위해 LLM 구성을 체계적으로 평가하여 특화된, 섬세하게 조정된 모델을 사용한다.

2026년 2월 27일 오전 12시 00분Apple

LLMs에서 텍스트와 음성 이해 간격을 줄이다

대형 언어 모델(Large Language Models, LLMs)은 음성 입력에 대한 텍스트 능력을 확장하기 위해 적응될 수 있지만, 이러한 음성 적응형 LLMs는 일관적으로 텍스트 기반 대조군 및 심지어 연쇄 파이프라인에서 언어 이해 작업에서 성능이 떨어집니다. 이 글에서는 이러한 갭을 '텍스트-음성 이해 간격'이라고 정의하고, 최근 이 갭을 줄이기 위한 접근 방식들에 대해 다루고 있습니다.

2026년 2월 25일 오전 12시 00분Apple

LLMs를 통해 수학 추론 기능 향상시키는 'Constructive Circuit Amplification' 연구

LLMs의 내부 작업을 조사한 이전 연구에서는 특정 작업을 수행하는 희소한 하위 네트워크 또는 회로가 발견되었습니다. 이러한 연구 결과를 토대로 기존 회로를 강화함으로써 모델 성능을 향상시키는 것이 가능하다는 가능성을 제시했습니다. 이를 바탕으로 Constructive Circuit Amplification이라는 새로운 방법을 제안하고 있습니다.

2026년 2월 25일 오전 12시 00분Apple

A.R.I.S.: 딥러닝을 활용한 E-폐기물 분류를 위한 자동 재활용 식별 시스템

A.R.I.S.는 자동 분류 시스템으로, 낮은 비용의 이동식 분류기로 파쇄된 E-폐기물의 금속, 플라스틱, 회로 기판을 실시간으로 분류하여 자원 회수 효율을 높입니다. YOLOx 모델을 사용하여 저렴한 비용으로 빠른 추론 속도와 높은 정확도를 달성합니다.

2026년 2월 25일 오전 12시 00분Apple

PyTorch 컴파일러의 불투명 상자를 열다: 머신러닝 연구원을 위한 depyf

PyTorch 2.x에서는 딥러닝 프로그램 가속화를 위한 컴파일러가 도입되었지만, 머신러닝 연구원들에게는 PyTorch 컴파일러에 완전히 적응하기 어려울 수 있습니다. 이를 해결하기 위해 PyTorch 컴파일러의 내부 작업을 명확하게 하는 도구인 depyf가 소개되었습니다.

2026년 2월 24일 오전 12시 00분Apple

CoT의 잠재력: Trace Dynamics의 깊은 이해

CoT prompting은 대형 언어 모델로부터 추론과 유사한 응답을 유도하기 위한 표준 기법이다. 그러나 CoT 추론의 성공을 이끄는 주요 요인은 여전히 불분명하다. 본 연구에서는 경쟁 수준의 수학 문제에서 유래한 CoT 트레이스를 분석하여 CoT의 어떤 부분이 최종 답변에 기여하는지에 대해 더 잘 이해하고자 한다.

2026년 2월 24일 오전 12시 00분Apple

HTML에서 텍스트 추출을 재고하다: LLM 사전 훈련을 위한

이 연구는 단일 추출기가 모든 웹페이지에 적용되는 기존 오픈소스 데이터셋이 인터넷 데이터의 최적 커버리지와 활용을 제공하는지 조사한다. 다양한 추출기가 표준 언어 이해 작업에서 유사한 모델 성능을 보일 수 있지만, 고정된 필터링 파이프라인을 거쳐 남은 페이지들은 크게 다를 수 있다.

2026년 2월 24일 오전 12시 00분Apple

AMUSE: 음향-시각적 벤치마크 및 대화형 다중 화자 이해를 위한 정렬 프레임워크

AMUSE는 대화 중심 환경에서 활용되는 음향-시각적 다중 화자 이해에 중점을 둔 벤치마크 및 정렬 프레임워크이다. 최근의 다중 모달 대형 언어 모델은 강력한 지각 능력을 보이지만, 화자 추적, 역할 유지 및 시간 경과에 걸쳐 사건을 논리적으로 연결하는 다중 화자 상황에서 어려움을 겪는다. AMUSE는 음향 및 시각적 스트림에 대해 공동으로 추론해야 하는 다중 모달 오디오-비디오 이해에 중점을 둔 벤치마크로, 대화형 비디오 어시스턴트 및 회의 분석과 같은 응용 프로그램에서 활용된다.

2026년 2월 24일 오전 12시 00분Apple

키-값 캐시에서의 축출 학습

대규모 언어 모델의 증가하는 크기로 효율적인 추론이 어려워지고 있으며, 이는 주로 자기회귀 키-값 캐시의 메모리 요구 때문이다. 기존의 축출 또는 압축 방법은 비용을 줄이지만, 토큰의 미래 유효성에 대한 간접적인 대리인으로만 기능하는 휴리스틱에 의존한다. 우리는 KV 캐시 축출을 강화 학습 문제로 재구성하여 미래 디코딩을 위한 토큰의 예측된 유용성에 따라 토큰을 순위 지정하는 것을 학습한다. 이를 위해 우리는 KV 정책(KVP)이라는 프레임워크를 도입한다.

2026년 2월 23일 오전 12시 00분Apple

검색 시스템의 중요한 기능인 검색어 자동완성(QAC)을 개선하기 위해 검색 증강 생성과 다중 목적 정렬을 통해 QAC를 종단 간 리스트 생성으로 재정의하는 통합 프레임워크를 제안합니다. 기존 방법론의 한계를 극복하고 안전성을 높이는 방법을 소개합니다.

2026년 2월 18일 오전 12시 00분Apple

Ferret-UI Lite: 소형 장치용 GUI 에이전트 구축 시 배운 것들

Ferret-UI Lite는 소형 장치용 GUI 에이전트로, 모바일, 웹, 데스크톱 등 다양한 플랫폼에서 작동한다. 작은 모델을 개발하기 위해 최적화된 기술을 활용하여 실제와 합성 데이터를 활용하고 추론 시간 성능을 강화하는 등의 기법을 사용해 3B Ferret-UI Lite 에이전트를 구축했다.

2026년 2월 17일 오전 12시 00분Apple

최신뉴스 전체보기

임베딩 아틀라스: 저저항, 대화형 임베딩 시각화

Embedding Atlas는 대규모 데이터셋 및 모델을 시각화하는 데 널리 사용되는 임베딩 프로젝션이지만, 사용자들은 종종 임베딩 시각화 도구를 사용할 때 “저항”을 겪는다. 이 논문에서는 대규모 임베딩과 상호 작용하는 데 쉽게 접근할 수 있도록 설계된 확장 가능한 대화형 시각화 도구인 Embedding Atlas를 제시한다.

2025년 11월 3일 오전 12시 00분Apple

SEMORec: 스칼라화된 효율적인 다중 목적 추천 프레임워크

다중 이해관계자 환경에서의 추천 시스템은 공급업자와 소비자 요구를 동시에 최적화해야 합니다. SEMORec는 다중 목적을 효율적으로 조합하여 각 이해관계자의 기대를 충족시키는 추천을 제공합니다. 가중치를 사용한 스칼라화 기능을 통해 이러한 환경에서 추천을 제공하는 것은 실제 문제가 됩니다. 최근 연구는 RL을 사용하여 응용 프로그램별 요구에 따라 이러한 가중치를 적응적으로 조정하는 알고리즘을 개발했습니다.

2025년 10월 30일 오전 12시 00분Apple

2025년 Empirical Methods in Natural Language Processing (EMNLP)

Apple이 중국 수주에서 11월 4일부터 9일까지 개최되는 EMNLP 학회에서 새로운 연구를 발표할 예정이다.

2025년 10월 29일 오전 12시 00분Apple

인간 통역 연구로부터의 기계 통역으로의 발전

현재 음성 번역 시스템은 높은 정확도를 보유하고 있지만 인간 통역사처럼 실제 상황에 적응하거나 동적으로 작동하지 못하는 한계가 있다. 인간 통역의 본질을 정확히 이해하여 음성 번역 시스템의 발전을 위한 함의를 찾아야 한다. 이를 위해 기계 번역 분야에서 인간 통역 문헌을 살펴보고 운영 및 질적 측면을 모두 고려한다.

2025년 10월 29일 오전 12시 00분Apple

추론의 면도날: 추론은 정확도를 향상시키지만 안전 및 환각 탐지에서 재현율을 해칠 수 있음

추론은 대형 언어 모델에서 정확도를 지속적으로 향상시키지만, 정밀도에 민감한 작업에서의 적합성은 명확하지 않았다. 저거짓 양성율(FPR) 조건 하에서 분류 작업에 대한 추론의 체계적인 연구를 제시하며, 안전 탐지와 환각 탐지 두 가지 작업을 다루었고 결과는 추론을 포함한 생성이 정확도를 향상시키지만 재현율을 희생시키는 교환이 있음을 보여줌.

2025년 10월 29일 오전 12시 00분Apple

부분 전문가 데모를 통한 추론을 위한 강화 학습

부분 전문가 데모를 통한 강화 학습은 복잡한 시퀀스 생성 작업을 해결하는 유망한 프레임워크로 제안된다. 주어진 밀도 높은 라벨에 의존하는 감독된 미세 조정(SFT)은 시퀀스 길이가 늘어날수록 점점 비용이 증가하는 반면, 강화 학습은 희소한 보상과 조합적으로 큰 출력 공간으로 인해 어려움을 겪는다. 우리는 이를 Adaptive Backtracking(AdaBack)이라는 샘플별 커리큘럼 학습 알고리즘을 소개함으로써 해결한다. 이 알고리즘은 훈련 중에 목표 출력의 부분 접두사만을 공개함으로써 이를 다룬다.

2025년 10월 29일 오전 12시 00분Apple

심리적 지지물을 활용한 언어 모델 페르소나 개선

사용자 설명이나 페르소나로 유도된 언어 모델은 사용자의 선호 및 의견을 예측하는 데 사용됩니다. 기존 방법은 사용자의 인구 특성 또는 이전 판단에 의존하지만 판단의 근본적인 이유에는 의존하지 않습니다. PB&J(행동 및 판단의 심리학)을 소개하는데, 이는 사용자가 특정 판단을 내릴 수 있는 이유를 명확히 추론하기 위해 언어 모델에 의해 생성된 이유를 통합하여 LM 페르소나를 개선합니다.

2025년 10월 28일 오전 12시 00분Apple

ODKE+: 온톨로지 가이드 오픈 도메인 지식 추출과 LLMs

ODKE+는 웹 소스에서 수백만 개의 오픈 도메인 사실을 고정밀로 자동 추출하고 흡수하는 프로덕션 급 시스템이다. 이는 지식 그래프가 많은 AI 응용 프로그램의 기반이 되지만 신선성과 완전성을 유지하는 것이 비용이 많이 든다는 문제를 해결한다. ODKE+는 모듈식 구성 요소를 활용하여 확장 가능한 파이프라인으로 결합된다.

2025년 10월 27일 오전 12시 00분Apple

대규모 언어 모델의 파워를 활용한 Entity Linking에서의 Multi-step Prompting 및 Targeted Reasoning

최근 몇-shot 방법은 대규모 언어 모델을 활용하여 훈련 요구를 줄이기 위해 prompting을 통해 Entity Linking을 수행해왔으나, 비효율성을 겪었다. ARTER는 후보 생성, 문맥 기반 점수 매기기, 적응적 라우팅, 선택적 추론을 전략적으로 결합하여 깊은 세부 튜닝 없이 높은 성능을 달성하는 구조화된 파이프라인을 제시한다.

2025년 10월 27일 오전 12시 00분Apple

모형 불일치 시뮬레이션 기반 추론에서의 귀납적 도메인 전이

시뮬레이션 기반 추론(SBI)은 우도가 복잡하지만 시뮬레이션이 가능한 물리 시스템의 잠재적 매개 변수를 추정하는 통계적 추론 방법이다. 모형 불일치로 실제 관측치와 시뮬레이션 간 불일치가 발생하는데, RoPE는 이에 대응하기 위해 반지도 보정과 최적 수송을 결합한 두 단계의 도메인 전이 과정을 사용한다.

2025년 10월 27일 오전 12시 00분Apple

자원 제한된 모바일 기기에서 대규모 언어 모델의 메모리 효율적인 역전파

대규모 언어 모델을 역전파로 미세 조정할 때 메모리를 많이 사용하는 문제를 해결하기 위해 모바일 기기에 메모리 효율적인 구현을 제안함. Zeroth-order optimization 대신 더 나은 메모리 사용과 계산량의 균형을 제공함.

2025년 10월 27일 오전 12시 00분Apple

비디오 LLM 벤치마크 분석: 지식, 공간 지각 또는 진정한 시간적 이해?

논문이 NeurIPS 2025의 Evaluating the Evolving LLM Lifecycle Workshop에서 받아들여졌다. 기존 비디오 이해 벤치마크는 모델의 시간적 추론 능력을 명확하게 분리하는 대신, 지식 기반 및 순수 이미지 기반 질문을 혼동시키는 경향이 있음을 파악했다. 더 높은 점수가 동영상의 동적 콘텐츠에 대한 더 강한 이해를 진정으로 나타내는지 알아보기 어렵게 만드는 두 가지 주요 제한 사항을 식별했다.

2025년 10월 27일 오전 12시 00분Apple

PrimeX: 세계관, 의견, 설명을 담은 데이터셋

PrimeX는 858명의 미국 주민을 대상으로 한 공개 의견 조사 데이터셋으로, 의견을 지지하는 이유에 대한 설명과 응답자의 세계관을 평가하는 Primal World Belief 조사를 포함하고 있습니다.

2025년 10월 27일 오전 12시 00분Apple

평가 평가 지표의 평가 – 환각 탐지의 신화

환각은 언어 모델의 신뢰성과 보급에 큰 장애물이지만 정확한 측정은 여전히 과제다. 본 논문에서는 4개 데이터셋, 5가지 모델 패밀리의 37개 언어 모델 및 5가지 디코딩 방법을 통해 6가지 다양한 환각 탐지 메트릭 세트를 대규모로 검증했다. 광범위한 조사 결과, 이러한 메트릭의 강건성과 일반화가 아직 테스트되지 않았음을 보여준다.

2025년 10월 27일 오전 12시 00분Apple

대규모 이미지 편집을 위한 Pico-Banana-400K 데이터셋

Pico-Banana-400K는 텍스트로 이끌어지는 이미지 편집 능력을 향상시키기 위해 만들어진 대규모 데이터셋이다. 이미지 편집에 대한 지침을 기반으로 400,000장의 이미지로 이루어져 있으며, 실제 이미지에서 생성된 다양한 수정 쌍을 포함하고 있다.

2025년 10월 27일 오전 12시 00분Apple

대화형 언어 모델에서의 지속적인 편향: 프롬프트 이후의 차별

대화형 언어 모델에서의 편향 전이 가설(BTH)에 대한 이전 연구로부터 나온 위험한 가정은, 사전 훈련된 대형 언어 모델(LLM)에서 편향이 적응된 모델로 전이되지 않는다는 것이다. 우리는 실제 응용 프로그램에서 사용되는 매우 인기 있는 적응 전략인 프롬프트를 통해 BTH를 연구함으로써 이 가정을 무효화한다. 이전 연구와는 달리, 우리는 편향이 프롬프트를 통해 전이될 수 있으며, 인기 있는 프롬프트 기반의 완화 방법이 편향이 전이되는 것을 일관되게 방지하지 못하는 것을 발견했다.

2025년 10월 25일 오전 12시 00분Apple

움직임으로부터 방: 포즈되지 않은 실내 3D 물체 감지를 위치추정 및 매핑으로

“Rooms from Motion (RfM)”은 실내 3D 물체 감지를 위치추정과 매핑의 결과물로 삼는 객체 중심 프레임워크를 재방문한 것이다. 기존의 3D 물체 감지 방법은 전역적으로 운영되며 메트릭 카메라 포즈의 사전 존재를 내재적으로 가정한다. RfM은 포즈되지 않은 이미지 모음에 작용하며, 구조-동작으로부터 파생된 3D 상자를 기반으로 한 객체 중심 매처로 기존의 2D 키포인트 기반 매처를 대체함으로써 메트릭 카메라 포즈, 객체 트랙, 및…

2025년 10월 24일 오전 12시 00분Apple

대화식 음성으로부터 감정 인식 레이블인 Switchboard-Affect

대화식 음성 데이터셋의 세밀한 감정 인식 레이블링은 실제 응용 프로그램에서 음성 감정 인식(SER) 모델의 잠재력을 평가하는 데 중요하다. 대부분의 훈련 및 평가 데이터셋에는 감정 표현이 과장되거나 의도적으로 수정된 경우가 있는데, 이는 모델의 성능을 이해하고 개선이 필요한 부분을 파악하기 어렵게 만든다.

2025년 10월 17일 오전 12시 00분Apple

CPEP: 대조적 자세-EMG 사전 훈련이 EMG 신호에서 제스처 일반화를 향상시킵니다

이 논문은 NeurIPS 2025의 Foundation Models for the Brain and Body Workshop에서 받아들여졌다. 고화질의 구조화된 데이터를 사용한 손 제스처 분류는 컴퓨터 비전에서 잘 연구된 문제이다. 낮은 전력과 비용 효율적인 생체 신호인 표면 근전도(sEMG)를 활용하면 웨어러블 기기에서 연속적인 제스처 예측이 가능해진다. 본 논문에서는 약한 모달리티 데이터로부터 표준화된 고화질 데이터와 일치하는 표현을 학습함으로써 표현 품질을 향상시키고 제로샷 학습을 가능하게 한다는 것을 입증한다.

2025년 10월 16일 오전 12시 00분Apple

SWE-Gym를 활용한 소프트웨어 엔지니어링 에이전트와 검증자의 훈련

SWE-Gym은 실제 소프트웨어 엔지니어링(SWE) 에이전트를 훈련하기 위한 환경으로, 2,438개의 실제 Python 작업 인스턴스를 포함하고 있습니다. SWE-Gym을 활용하여 언어 모델 기반 SWE 에이전트를 훈련시켜 인기 있는 SWE-Bench Verified 및 Lite 테스트 세트에서 최대 19%의 절대 성과 향상을 달성했습니다.

2025년 10월 16일 오전 12시 00분Apple

소프트웨어 테스팅을 위한 하이브리드 벡터-그래프와 멀티 에이전트 조합을 활용한 에이전틱 RAG

소프트웨어 테스팅 자동화를 위한 에이전틱 검색-증강 생성(RAG) 시스템을 활용한 접근 방식을 소개합니다. 자율형 AI 에이전트와 하이브리드 벡터-그래프 지식 시스템을 결합하여 테스트 계획, 케이스, QE 메트릭 생성을 자동화합니다. Gemini와 Mistral과 같은 LLMs, 멀티 에이전트 조작, 향상된 문맥화를 활용하여 전통적인 소프트웨어 테스팅 한계를 극복하며 65%에서 94.8%로 높은 정확도 향상을 달성합니다.

2025년 10월 15일 오전 12시 00분Apple

오토인코더 트랜스포머 모델을 활용한 소프트웨어 결함 예측

AI-ML을 활용한 품질 엔지니어링 접근 방식은 결함을 예측하여 소프트웨어 품질 평가를 향상시킵니다. 새로운 모델인 ADE-QVAET는 고차원 잠재 특성을 얻고 순차적 의존성을 유지하여 결함 예측 정확도를 향상시킵니다.

2025년 10월 15일 오전 12시 00분Apple

FS-DFM: 소수 단계 확산 언어 모델을 활용한 빠르고 정확한 긴 텍스트 생성

ARMs은 강력한 가능성을 제공하지만, 시리얼로 동작하여 장거리 시퀀스의 처리량을 제한하고 지연을 증가시킨다. DLMs는 위치별 병렬화를 통해 언어 생성에 유망하나 품질 향상을 위해 많은 모델 평가가 필요하다. FS-DFM은 속도를 희생시키지 않고 설계된 소수 단계의 이산 흐름 일치 모델을 소개한다.

2025년 10월 13일 오전 12시 00분Apple

ICCV 2025

애플이 하와이에서 개최되는 국제 컴퓨터 비전 학회 ICCV 2025에서 새로운 연구를 발표합니다.

2025년 10월 13일 오전 12시 00분Apple

시각 인코딩을 활용한 시각-언어 모델의 벤치마킹, EncQA

시각-언어 모델의 성능은 차트 이해 벤치마크에서 계속 발전하고 있지만, 시각적 추론 능력을 완전히 포착하지 못함. EncQA는 시각화 문헌을 기반으로한 새로운 벤치마크로, 차트 이해에 중요한 시각 인코딩과 분석 작업을 체계적으로 다루도록 설계됨. 2,076개의 합성 질문-답변 쌍을 제공하여 시각 인코딩 채널(위치, 길이, 면적, 색상 등)을 균형 있게 다루게 함.

2025년 10월 13일 오전 12시 00분Apple

조건부 확산에서의 합성 일반화의 지역 메커니즘

조건부 확산 모델은 합성 일반화, 즉 조건부의 분포와 관련 없는 조합에 대해 설득력 있는 샘플을 생성할 수 있는 것으로 보이지만, 이 능력의 메커니즘이 여전히 불분명하다. 길이 일반화를 연구하여 모델이 때때로 기초 합성 구조를 학습하는 것을 발견한다.

2025년 10월 9일 오전 12시 00분Apple

지식 및 추론 기준에 대한 LLMs의 방언적 편향 분석

이 연구는 대형 언어 모델이 현대 자연어 처리에서 널리 사용되고 있지만, 소수 영어 방언에 대한 성능이 저하되는 문제를 분석합니다. 특히, “표준” 미국 영어 언어 질문을 “표준이 아닌” 방언적 변형으로 분류할 때 객관식 질문 응답 작업에서 최대 20%의 정확도 감소가 나타났습니다. 또한, “표준이 아닌” 영어 질문의 성능 저하에 대한 문법적 근거를 조사했습니다.

2025년 10월 9일 오전 12시 00분Apple

JEPA 재고: 동결된 선생님과 함께 하는 계산 효율적 비디오 SSL

V-JEPA는 동결된 선생님과 함께 마스킹된 영역을 예측하여 범용적 비디오 표현을 학습하는데, 학생과 선생님의 구조를 복잡하게 하는 EMA를 사용하지 않고도 마스킹된 잠재 공간에서 일반화 가능한 영상 표현을 학습하는 방법에 대해 재고했다.

2025년 10월 8일 오전 12시 00분Apple

이유론 기반 이상 감지 프레임워크: 도메인 간 이상 감지에 대한 실시간, 확장 가능하고 자동화된 접근

대규모 분산 시스템에서 이상을 감지하는 것은 여러 어려움이 있습니다. 데이터 양의 증가와 시계열 데이터셋의 다양성으로 인한 도전이 있습니다. 이상을 탐지하기 위해 알고리즘과 시스템 설계를 신중히 고려해야 합니다. 이상 감지 시스템은 한 가지 용도에 대해 드물게 배포되며 여러 도메인에서 종종 여러 지표를 모니터링해야 합니다.

2025년 10월 8일 오전 12시 00분Apple

안정적 확산 모델은 시각 내 콘텍스트 학습에 좋다

최근 컴퓨터 비전 작업에 대한 초기 결과가 매우 유망한 언어 모델(LLM)이 적용된 내 콘텍스트 학습(ICL)의 잠재력을 입증했다. 본 연구에서는 일반적으로 사용되는 안정적 확산 모델을 시각 내 콘텍스트 학습에 재활용할 수 있다는 것을 보여준다.

2025년 10월 7일 오전 12시 00분Apple

TASER: 시스템적 평가와 추론을 통한 번역 평가

TASER는 대규모 추론 모델을 활용하여 자동 번역 품질 평가를 위한 메트릭으로, 명시적 추론 능력을 활용하여 번역 품질을 체계적으로 평가합니다. WMT24 Metrics Shared Task에서 TASER를 평가하고, 최신 기술을 보여주며 최고의 성능을 달성합니다.

2025년 10월 2일 오전 12시 00분Apple

진화하는 세상에서의 학습 장벽: 가중치 손실의 수학적 이해

이 연구는 변동성 있는 환경에서 심층 학습 모델이 미래 학습 능력을 저하시키는 가중치 손실(LoP) 현상으로 어려움을 겪는 것을 다루고 있다. 다이내믹 시스템 이론에 기반을 둔 이 연구는 경사 하강 학습에서의 LoP에 대한 원리주의적 탐구를 제시한다. LoP를 공식적으로 정의함으로써 안정된 매개 변수 공간 내에서 경사도 궤적을 가두는 안정 매니폴드를 식별한다. 이 분석은 활성화 포화로 인한 동결 단위와 표현적 복제 단위 매니폴드로부터 이러한 함정을 만드는 두 가지 주요 메카니즘을 밝혀냈다.

2025년 10월 2일 오전 12시 00분Apple

Hilbert: 비형식적 추론으로 형식적 증명 구축하기

대형 언어 모델(Large Language Models, LLMs)은 수학적 추론 능력을 보여주지만 자동으로 확인할 수 없는 오류를 포함한다. Lean 4와 같은 형식적 정리 증명 시스템은 자동 검증을 제공하여 최근에는 형식 언어로 검증 가능한 증명을 생성하는 전문 프로버 LLMs 구축에 노력하고 있다. 그러나 현재 프로버 LLMs는 일반적인 자연 언어에서 작동하는 범용 LLMs보다 훨씬 적은 문제를 해결한다. Hilbert는 이 간극을 메우는 에이전트 프레임워크를 소개한다.

2025년 10월 2일 오전 12시 00분Apple

양자화 인식 훈련의 최적 컴퓨팅

양자화 인식 훈련(QAT)은 양자화된 신경망의 정확도를 향상시키는 주요 기술이다. 최적의 컴퓨팅 할당 방법을 밝히는 연구를 실시했으며, QAT 기간이 최종 성능에 미치는 영향을 조사한다.

2025년 10월 1일 오전 12시 00분Apple

그래프 표현 학습의 생성 및 대조

그래프의 자기지도 학습은 노드 및 그래프 표현(임베딩)을 생성하여 레이블이 제한적이거나 없는 경우에 노드 분류, 노드 클러스터링 및 링크 예측과 같은 하위 작업에 사용될 수 있다. 이 논문에서는 대조적 또는 생성적 패러다임을 따르는 기존의 그래프 자기지도 학습 방법을 통합하는 새로운 아키텍처를 제안한다.

2025년 9월 29일 오전 12시 00분Apple

최적 데이터 혼합을 위한 스케일링 법칙

대규모 기초 모델은 일반적으로 여러 도메인의 데이터로 학습되는데, 데이터 혼합은 각 도메인의 비율이 모델 성능에 중요한 역할을 한다. 우리는 스케일링 법칙을 사용하여 어떤 대상 도메인에 대한 최적 데이터 혼합을 결정하기 위한 체계적인 방법을 제안한다. 이 방법은 모델의 손실을 정확하게 예측하며 이러한 스케일링 법칙의 보편성을 확인하였다.

2025년 9월 26일 오전 12시 00분Apple

PersonaTeaming: Personas 도입이 자동화된 AI Red-Teaming을 개선하는 방법 탐구

AI 모델이 가지는 잠재적 위험을 효과적으로 발견할 수 있는 red-teaming 방법론이 필요한데, 이 논문은 PersonaTeaming이라는 새로운 방법을 제안한다. 이 방법은 red-teamer의 신원과 배경이 red-teaming 전략과 발견 가능한 위험의 종류를 형성하는 데 어떤 영향을 미치는지 탐구하고 있다. 자동화된 red-teaming 접근 방식이 인간 red-teaming을 보완할 수 있는 가능성을 제시하고 있으나 현재의 방법론은 역할을 고려하지 않는다.

2025년 9월 26일 오전 12시 00분Apple

자가 교육 음성 모델의 다국어 간격 축소를 위한 오디오-비주얼 데이터 활용

자가 교육 학습은 음성 표현 학습에서 상당한 발전을 이루었습니다. 그러나 다국어 환경에서는 단일 언어에 비해 성능이 떨어지는 경향이 있습니다. 이 연구에서는 이러한 성능 간격을 줄이기 위해 이중 언어 음성 자가 교육 모델에 제한된 비주얼 기반을 도입하는 새로운 접근 방식을 탐구합니다.

2025년 9월 25일 오전 12시 00분Apple

단순한 방법으로 단백질 접힘 모델링하기

알파폴드2의 도입 이후 단백질 접힘 모델은 도메인 전문 지식을 통합하고 트랜스포머 레이어만 사용하는 SimpleFold 모델을 소개하며, 성공적인 생성 모델의 영향을 조사한다.

2025년 9월 24일 오전 12시 00분Apple

구별 불가능성의 렌즈를 통한 보정

예측된 확률이 어떻게 해석되어야 하는지에 대한 고전적인 개념인 보정은 어떻게 측정되고 해석되는지에 대한 연구에 대한 최근 관심이 증가하고 있다. 이 연구는 보정 오차를 정의하고 측정하는 방법 및 이러한 측정치가 의미하는 바에 대한 최근 연구에 대해 설명한다.

2025년 9월 23일 오전 12시 00분Apple

데이터 선택을 위한 샘플 유틸리티 평가: 모델 가중치 모방

노이즈, 편향, 불필요한 정보를 포함하는 대규모 웹 크롤링 데이터셋에서 다중 모달 모델을 훈련시키는데 데이터 선택 기술의 중요성. 모델 무관한 방법과 모델 기반 방법을 비교하며, 후자는 계산적으로 부담스러울 수 있음. 이 연구에서는 모델 가중치를 모방하여 데이터 선택 방법을 제안한다.

2025년 9월 23일 오전 12시 00분Apple

장기 대화형 질의응답을 위한 에피소딕 KV 캐시 관리 시스템 EpiCache

대규모 언어 모델의 발전으로 대화형 어시스턴트가 긴 이력을 유지하며 일관된 맞춤형 응답을 제공할 수 있게 되었지만, 이는 KV 캐싱에 의존하고 있음. EpiCache는 이러한 한계를 극복하기 위한 새로운 방법론으로, 캐시 크기를 줄이면서도 정확성을 유지하는 것을 목표로 함. 기존 방법들의 한계를 극복하기 위해 연구가 진행 중.

2025년 9월 23일 오전 12시 00분Apple

AToken: 시각을 위한 통합 토크나이저

AToken은 이미지, 비디오, 3D 자산에 대해 고신뢰 재구성과 의미 이해를 달성하는 최초의 통합 시각 토크나이저이다. 기존의 특정 단일 모달리티에 대한 재구성 또는 이해에 특화된 토크나이저와는 달리, AToken은 이러한 다양한 시각 입력을 공유된 4D 잠재 공간으로 인코딩하여 단일 프레임워크에서 두 작업과 모달리티를 통합한다.

2025년 9월 23일 오전 12시 00분Apple

MM-Spatial: 3D 공간 이해를 탐구하는 다중 모달 LLMs

다중 모달 대형 언어 모델(MLLMs)은 2D 시각적 이해에서 뛰어나지만 3D 공간 추론능력에 제한이 있습니다. 이 연구에서는 대규모 고품질 3D 장면 데이터를 활용하여 1) 새로운 지도형 데이터셋을 소개하고 2) 실내 장면에 중점을 둔 새로운 평가 기준을 도입합니다. Cubify Anything VQA (CA-VQA) 데이터는 공간 관계 예측, 측정 크기 및 거리 추정, 3D 기준을 포함한 다양한 공간 작업을 다룹니다. CA-VQA를 사용하여 MM-Spatial을 학습시키면 강력한 종합 MLLM인 MM-Spatial을 훈련시킬 수 있음을 보여줍니다.

2025년 9월 23일 오전 12시 00분Apple

첫 번째 정규화 불완전 모멘트에 대한 대안 통계적 추론

이 논문은 불평등의 잘 알려진 측정 방법인 첫 번째 정규화 불완전 모멘트를 재검토합니다. 기존의 통계적 추론이 현대 분석 요구에 미달한다는 점을 고려하여 직관적이고 계산 효율적인 대안 솔루션을 제안합니다. 제안된 방법론의 이론적 및 실용적 이점이 증명됩니다.

2025년 9월 23일 오전 12시 00분Apple

2025년 애플 자연어 및 대화형 시스템 워크샵

자연어 처리(NLP)는 AI 분야에서 가장 빠르게 발전하는 분야 중 하나로, 대형 언어 모델(LLM), 음성 인식 및 생성 시스템, 언어 에이전트 등이 급속히 발전하고 있다. 이 기술은 애플 인텔리전스와 시리를 포함한 많은 AI 경험에 필수적이며, NLP의 기본 연구는 미래 AI에 기초가 될 것이다.

2025년 9월 23일 오전 12시 00분Apple

RATTENTION: 로컬-글로벌 어텐션 모델에서 최소 슬라이딩 윈도우 크기를 향하여

로컬-글로벌 어텐션 모델은 표준 트랜스포머에 대안으로 최근 등장했는데, 훈련 및 추론 효율성을 모두 향상시킬 것으로 약속되고 있다. 그러나 창 크기 선택은 핵심적인 문제이며, 이 연구는 최소한의 슬라이딩 윈도우 크기에 대해 조사한다.

2025년 9월 23일 오전 12시 00분Apple

가우시안이 아닌 상태에서 식별 가능한 다중뷰 인과 발견

다중뷰 구조 방정식 모델에서 선형 인과 발견에 대한 새로운 접근 방식을 제안한다. 가우시안 왜곡 가정을 완화시키고 대신 다양한 분산을 가정함으로써 더 넓은 적용 범위를 갖게 한다. SEM의 구조에 대해 사이클이 없다는 것 외 추가 가정 없이 모델의 모든 매개변수의 식별 가능성을 증명한다. 또한 최근 다중뷰 독립 성분 분석(IAC)의 발전에 기반한 추정 알고리즘을 제안한다.

2025년 9월 23일 오전 12시 00분Apple

TADA: 훈련 불필요한 증가된 동역학을 활용한 개선된 확산 샘플링

이 연구에서는 이미지넷512에서 비교 FID에 대해 현재 최신 기술 솔버보다 최대 186% 빠른 새로운 샘플링 방법을 소개합니다. 이 새로운 샘플링 방법은 훈련 불필요하며 상평면 상미분 방정식(ODE) 솔버를 사용합니다. 높은 차원의 초기 잡음을 사용함으로써 빠른 샘플링을 가능하게 합니다.

2025년 9월 22일 오전 12시 00분Apple

확산 트랜스포머의 일반화를 가능하게 하는 추론 편향에 대해

최근 연구에서 UNet 기반의 노이즈 제거기를 사용한 확산 모델의 일반화를 연구한 결과, 기하적 적응적 고조파 베이스를 통해 표현 가능한 추론 편향이 발견되었다. 그러나 최근의 더 많은 노이즈 제거 네트워크는 트랜스포머를 기반으로 하고 있는데, 이는 트랜스포머 기반의 노이즈 제거 네트워크도 기하적 적응적 고조파 베이스를 통해 표현 가능한 추론 편향을 나타내는가에 대한 의문을 제기한다. 우리는 이에 대한 탐색을 통해 좋은 결과를 이끌어낼 수 있는 추론 편향을 찾고자 한다.

2025년 9월 22일 오전 12시 00분Apple

MobileCLIP2: 다중 모달 강화 학습 개선

MobileCLIP은 저지연 및 가벼운 아키텍처를 가지고 있으며, 새로운 다중 모달 강화 학습을 활용하여 지식 전달을 효율적으로 만들어내는 이미지-텍스트 모델이다.

2025년 9월 22일 오전 12시 00분Apple

이산형 뉴럴 플로우 샘플러와 로컬 등변 변환기

DNFS는 이산 샘플링을 위한 훈련 가능하고 효율적인 프레임워크로, 연속 시간 마르코프 체인의 비율 행렬을 학습하여 결과적인 역학이 콜모고로프 방정식을 만족하도록 합니다. 이 목표는 추정 불가능한 파티션 함수를 포함하므로, 이에 대한 분산을 줄이기 위해 제어 변수를 사용합니다.

2025년 9월 22일 오전 12시 00분Apple

트랜스포머 기반 자기회귀 플로우를 활용한 연속 공간에서의 유연한 언어 모델링

이 연구는 언어 모델링의 설계 공간을 탐색하여 새로운 모델링 유연성을 제안하는데, 연속 잠재 공간에서의 언어 모델링에 대한 새로운 프레임워크인 TarFlowLM을 제안한다. 이 프레임워크는 트랜스포머 기반 자기회귀 정규화 플로우를 사용하여 연속 표현을 모델링한다.

2025년 9월 22일 오전 12시 00분Apple

데이터셋, 문서 및 반복: 불균형 데이터 품질의 실제

데이터 필터링은 모델 성능을 향상시키고 계산 비용을 줄이는 강력한 도구가 되었지만, 대규모 언어 모델의 계산 예산이 계속 증가함에 따라 심각하게 필터링된 데이터셋에서 제공되는 제한된 데이터 양이 실제 제약 요인이 될 것으로 예상된다. 이에 대한 더 나은 이해를 위해, 우리는 데이터 필터링과 중복 제거를 통해 생성된 다양한 사전 훈련 데이터셋에서 모델 성능을 연구한다. 적절한 훈련 레시피 수정을 고려할 때, 기존에 강력하게 필터링된 것을 반복할 때 모델 성능이 어떻게 변하는지 및 다양한 계산 예산에서 모델 성능을 연구한다.

2025년 9월 22일 오전 12시 00분Apple

UniGen: 통합된 다중 모달 이해 및 생성을 위한 향상된 훈련 및 테스트 시 전략

UniGen은 이미지 이해와 생성이 가능한 통합된 다중 모달 대형 언어 모델이다. 새로운 Chain-of-Thought Verification (CoT-V) 전략을 제안하여 테스트 시 스케일링을 수행하고 이미지 생성 품질을 현저히 향상시킨다.

2025년 9월 22일 오전 12시 00분Apple

개인 KL 분포 추정을 위한 인스턴스 최적성

미지의 이산 분포를 추정하는 기본 문제를 다루며, 실제 분포와 알고리즘의 추정치 사이의 KL 발산을 최소화하려고 함. 개인 최적 추정기를 구축하고 개별 인스턴스에서의 알고리즘 성능을 조사함.

2025년 9월 22일 오전 12시 00분Apple

에너지를 따라가면, 길을 찾다: 에너지 기반 모델로부터의 리만 거리측정

고차원 공간에 있는 두 데이터 포인트 사이의 가장 짧은 경로는 무엇인가? 유클리드 기하학에서는 답이 간단하지만, 데이터가 곡률 다양체에 있는 경우에는 리만 거리측정이 필요하다. 이 연구에서는 사전 훈련된 에너지 기반 모델로부터 리만 거리측정을 직접 유도하는 방법을 제안한다. 이러한 메트릭은 공간적으로 정의된다.

2025년 9월 22일 오전 12시 00분Apple

MLLM 사전을 활용한 MLLM 우선순위에 따른 교차 모달 표현 안내

CLIP의 놀라운 능력에도 불구하고, 여전히 특징 공간에서 상당한 모달 갭이 존재합니다. 최근의 MLLM 기반 리트리버는 이 갭을 일부 완화하지만, 미세 모달리티 정렬 메커니즘에 의존하는 한 그들의 잠재력을 근본적으로 제한합니다. 본 연구에서는 임베딩을 위한 모달리티-정렬 우선 학습인 MAPLE을 소개합니다.

2025년 9월 22일 오전 12시 00분Apple

SlowFast-LLaVA-1.5: 비디오 이해를 위한 토큰 효율적인 비디오 대형 언어 모델 패밀리

SF-LLaVA-1.5는 비디오 이해를 위한 효율적인 모델로, 작은 규모의 Video LLMs도 최첨단 성능을 달성할 수 있다는 것을 보여줌.

2025년 8월 22일 오전 12시 00분Apple

체크리스트는 보상 모델보다 언어 모델을 정렬하는 데 더 나은 방법입니다

언어 모델은 사용자 지시를 이해하고 따라야 합니다. 저자들은 보상 모델 대신 유연한, 지시별 기준을 제안하며, “체크리스트 피드백에서 강화 학습”을 제안합니다. 이를 통해 강화 학습이 지시 따르기에 미치는 영향을 확대할 수 있습니다.

2025년 8월 22일 오전 12시 00분Apple

대형 언어 모델의 행동을 결정할 수 있는 단일 파라미터의 역할

Apple 연구원들의 논문에 따르면, 대형 언어 모델에서 매우 작은 파라미터 하위 집합이 (경우에 따라 단일 파라미터) 전체 기능에 지나치게 큰 영향을 미칠 수 있다. 이 연구는 이러한 “슈퍼 가중치”와 이에 상응하는 “슈퍼 활성화”의 중요성을 강조하며, 효율적인 모델 압축을 위한 새로운 통찰을 제공한다.

2025년 8월 21일 오전 12시 00분Apple

대용량 언어 모델에서 핵심 참조 해결에서의 확신 격차를 활용한 교차적 편향 조사

대용량 언어 모델은 인상적인 성능을 달성했지만, 사회적 편견을 반영하고 악화시킬 수 있다는 과학적 합의가 있음. 이 연구에서는 확신 격차를 사용하여 LLMs의 교차적 편향을 조사함.

2025년 8월 18일 오전 12시 00분Apple

암시적 신경 표현과 함께 비음수 행렬 인수분해 다시 생각하기

이 논문은 IEEE 음향 및 음향 신호 처리 응용 워크샵 (WASPAA) 2025에서 수락되었습니다. 비음수 행렬 인수분해(NMF)는 정기적으로 샘플링된 데이터를 분석하는 강력한 기술이지만, 불규칙하게 샘플링된 TF 표현에도 확장하기 어려웠습니다.

2025년 8월 18일 오전 12시 00분Apple

사전 훈련된 자동 음성 인식의 성능 개선을 위한 Pitch Accent 감지

세미-지도 음성 표현을 이용하는 자동 음성 인식(ASR) 시스템의 성능을 향상시키기 위해 ASR 및 Pitch Accent 감지 모델을 소개한다. 모델의 Pitch Accent 감지 구성 요소는 과제의 최신 기술에 대해 F1 점수 갭을 41%로 줄이는 중요한 개선을 달성한다. 또한, ASR 성능이 한정된 자원 미세 조정 하에 LibriSpeech에서 WER을 28.3% 감소시킨다. 이러한 결과로 사전 훈련을 확장하는 중요성을 입증한다.

2025년 8월 15일 오전 12시 00분Apple

신경 기계 번역을 위한 최적 말뭉치 인식 훈련

말뭉치 인식 훈련(CAT)은 매우 효과적이며, CAT 모델은 데이터로부터 직접 말뭉치의 품질, 도메인 및 뉴안스를 학습하며 추론 동작을 쉽게 전환할 수 있다. 본 논문에서는 최적 말뭉치 인식 훈련 방법을 제안한다.

2025년 8월 15일 오전 12시 00분Apple

Misty: 상호작용적 개념 혼합을 통한 UI 프로토타이핑

Misty는 UI 프로토타이핑을 위해 새로운 개념적 혼합 기술을 소개하는데, 이는 디자인 예시에서 다양한 측면을 빠르게 통합할 수 있는 혁신적인 UI 워크플로우를 제공한다. 14명의 프론트엔드 개발자를 대상으로 한 탐색적 사용 연구를 통해 Misty의 효과를 평가하고 이에 대한 피드백을 수집했으며, 결과는 Misty가 효과적임을 시사한다.

2025년 8월 15일 오전 12시 00분Apple

2025 Interspeech 스피치 접근성 프로젝트 챌린지

지난 10년 동안 자동 음성 인식(ASR) 시스템에서 큰 발전이 있었지만, 언어 장애를 가진 사람들을 위한 시스템의 성능은 부족한데에 공개된 훈련 데이터의 부족이 일부 원인이다. 이 갭을 메우기 위해 2025 Interspeech Speech Accessibility Project (SAP) Challenge가 시작되었고, 500명 이상의 다양한 언어 장애를 가진 사람들로부터 수집된 400시간 이상의 SAP 데이터를 활용한다. EvalAI에서 진행되며, 원격 평가 파이프라인을 활용하여 제출물을 단어 오류율에 따라 평가한다.

2025년 8월 8일 오전 12시 00분Apple

기기 지향적 음성 감지를 위한 적응형 지식 증류

기기 지향적 음성 감지(DDSD)는 사용자의 음성 어시스턴트(VA)에 대한 쿼리를 배경 음성이나 부수적인 대화와 분리하는 이진 분류 작업이다. 이를 위해, ASR 대규모 사전 훈련된 음향 인코더(교사)의 일반적인 표현으로부터 지식을 전달하는 새로운 적응형 KD 방법을 제안한다. 이를 통해 DDSD 정확도를 향상시키고 효율적인 배포를 보장한다.

2025년 8월 8일 오전 12시 00분Apple

HuBERT 자가 지도 학습 목표로 DiceHuBERT 압축하기

DiceHuBERT는 HuBERT를 압축하기 위한 지식 증류 프레임워크로, 기존의 층별 및 특징별 매핑을 사용하는 방법과 달리 HuBERT의 자체 증류 메커니즘을 활용하여 원래 모델을 학생 모델로 직접 대체함으로써 학생이 HuBERT 사전 훈련시 사용된 동일한 자가 지도 학습 목표를 사용하여 학습되도록 함.

2025년 8월 8일 오전 12시 00분Apple

웨이브폼 도메인 신경망을 활용한 앰비소닉 슈퍼-해상도

한글

2025년 8월 4일 오전 12시 00분Apple

STIV: 확장 가능한 텍스트 및 이미지 조건부 비디오 생성

비디오 생성 분야는 놀라운 발전을 이루었지만, 강력하고 확장 가능한 모델의 개발을 지도할 명확하고 체계적인 레시피에 대한 긴급한 필요성이 여전히 존재합니다. 본 연구에서는 모델 아키텍처, 훈련 레시피 및 데이터 정리 전략의 상호 작용을 체계적으로 탐구하는 포괄적인 연구를 제시하며, STIV라는 간단하고 확장 가능한 텍스트-이미지-조건부 비디오 생성 방법을 완성했습니다. 우리의 프레임워크는 이미지 조건을 DiT(Diffusion Transformer)에 프레임 교체를 통해 통합하면서 텍스트 조건을 통합합니다.

2025년 8월 1일 오전 12시 00분Apple

특이 발화에 대한 감정 모델의 일반화 능력이 약하다

특이 발화의 음향 특성이 파악모델의 성능에 영향을 줄 수 있다. 특이 발화 데이터셋을 사용해 음성으로부터 감정을 인식하는 모델의 성능을 평가했으며, 전형적인 발화 데이터셋과 비교했다. 인텔리지빌리티, 모노피치, 가혹함 세 가지 발화 특징을 조사했다.

2025년 8월 1일 오전 12시 00분Apple

다양한 Embedding 공간으로의 조향: 다국어 언어 모델에서 모델 개입에 의한 교차언어 정렬 분석

다국어 대규모 언어 모델(mLLMs)에서 언어 간 정렬된 표현은 교차언어 작업의 성능을 향상시킬 수 있습니다. 보통 정렬은 모델을 세밀하게 조정하는 것을 필요로 하는데, 이는 계산적으로 비싸며 종종 충분한 언어 데이터가 없을 수 있습니다. 모델 개입은 세부 조정에 대안이 될 수 있습니다. 우리는 인기있는 개입 방법(전문가 찾기)이 교차언어 표현의 정렬에 미치는 영향을 분석합니다.

2025년 7월 25일 오전 12시 00분Apple

정보 기하학과 모델 압축에서의 반복 최적화: 연산자 인수분해

딥러닝 모델의 매개변수 수가 증가함에 따라 자원 제한된 장치에 배포하기 위한 효과적인 압축 기술이 필요하다. 이 논문은 정보 기하학을 적용하여 모델 압축 영역에서 기존 방법을 분석하고, 주로 연산자 인수분해에 초점을 맞춘다. 이 관점을 채택함으로써 핵심 과제를 강조하는데, 최적의 저연산 하위다양체(또는 부분집합)를 정의하고 그 위에 투영하는 것이다. 많은 성공적인 모델 압축 접근법이 이해될 수 있다고 주장한다.

2025년 7월 25일 오전 12시 00분Apple

LLM 개인화로 나아가기: 사용자 대화 기억하는 법

이 논문은 2025년 Large Language Model Memorization (L2M2) 워크샵에서 받았다. 대형 언어 모델(Large Language Models, LLMs)은 다양한 작업에 귀중한 도우미가 되었지만, 사용자 대화를 기억하고 맞춤 응답하는 능력이 제한된다. 이 논문에서는 이전 대화의 지식을 LLM에 주입하여 개인화 작업을 더 나아가게 하는 방법을 탐구한다.

2025년 7월 25일 오전 12시 00분Apple

ASPERA: 복잡한 작업 실행을 평가하기 위한 시뮬레이션 환경

이 연구는 대규모 언어 모델이 복잡한 작업 실행이 가능한 디지털 어시스턴트를 구동하는 잠재력을 평가한다. ASPERA는 어시스턴트 라이브러리 시뮬레이션과 인간 지원 LLM 데이터 생성 엔진으로 구성된 프레임워크로, 개발자들이 LLM이 고품질의 작업을 생성하도록 안내할 수 있도록 한다.

2025년 7월 25일 오전 12시 00분Apple

외부 검증 도구가 LLM을 위한 주석 품질을 향상시킬 수 있을까

대규모 언어 모델(LLM)을 평가하고 피드백하기 위해 모델 응답에 대한 쌍별 선호도가 널리 수집됩니다. 이 데이터는 전통적인 하드 코딩된 지표를 얻기 어려운 도메인에서 모델 진행 상황을 측정하거나 모델 세부 조정을 돕는 데 도움이 될 수 있습니다. 그러나 일부 도메인에서는 이러한 쌍별 비교를 얻는 것이 까다로울 수 있습니다.

2025년 7월 25일 오전 12시 00분Apple

mRAKL: 저자원 언어를 위한 다국어 검색 보강 지식 그래프 구축

mRAKL은 저자원 언어를 위한 다국어 검색 보강 지식 그래프 구축을 위한 시스템으로, 다국어 지식 그래프 구축 작업을 질문 응답(QA) 작업으로 재정의하고, RAG 기반 시스템을 도입하여 수행합니다. 실험은 헤드 엔티티와 링크 관계를 활용하여 모델이 꼬리 엔티티를 예측하도록 합니다.

2025년 7월 25일 오전 12시 00분Apple

다양한 도메인에서 에이전트 능력의 종합적인 벤치마크인 MMAU

최근 대형 언어 모델의 발전으로 인해 인간과 유사한 에이전트 능력을 평가하기 위한 종합적인 벤치마크의 수요가 증가했다. 기존의 벤치마크는 특정 응용 시나리오에 초점을 맞추고 작업 완료를 강조하지만 결과를 이끌어내는 기본적인 기술을 분석하지 못하는 경우가 많다. 이러한 세부성의 부족으로 인해 실패의 원인을 심층적으로 이해하기 어렵다. 또한, 이러한 환경을 설정하는 데 상당한 노력이 필요하며 대화형 작업에서는 신뢰성과 재현성 문제가 발생할 수 있다.

2025년 7월 25일 오전 12시 00분Apple

글로벌 캘리브레이션이 다중 정확도를 강화하는 방법

다중 정확도와 다중 캘리브레이션은 학습과 계산 복잡성에서 다양한 응용을 찾은 예측의 다중 그룹 공정 개념이다. 이는 약한 어고노틱 학습이라는 하나의 학습 기본 원리로부터 이루어질 수 있다. 이 연구에서는 다중 정확도를 학습 기본 원리로서의 힘을 조사했으며, 캘리브레이션의 추가 가정 없이도 다중 정확도의 역량이 상당히 약하다는 것을 발견했다. 그러나 글로벌 캘리브레이션을 추가하면(이 개념을 캘리브레이션된 다중 정확도라고 함) 그 역량이 크게 향상되어, 이전에 파악되지 않았던 시사점을 복구할 수 있음을 발견했다.

2025년 7월 25일 오전 12시 00분Apple

ACL 2025: Apple이 ACL 2025에서 새로운 연구 발표

Apple은 오스트리아 비엔나에서 7월 27일부터 8월 1일까지 진행되는 연례 컴퓨터언어학 협회(Association for Computational Linguistics, ACL) 대회에서 새로운 연구를 발표할 예정이다. ACL은 자연어에 대한 컴퓨터 접근 방식에 관심 있는 다양한 연구 분야를 다루는 컴퓨터언어학 분야의 학회이다.

2025년 7월 24일 오전 12시 00분Apple

2024년 애플 인간중심 머신러닝 워크샵

2024년 애플이 인간중심 머신러닝 워크샵을 개최한다. 이 접근 방식은 ML 및 AI 기술을 사용하는 사람들의 필요와 가치를 우선시하여 인간 능력을 보완하고 향상시키는 AI를 만들어낸다. HCML 영역의 연구는 투명하고 해석 가능한 머신러닝 시스템 개발로 사용자들이 AI를 더 안전하게 사용하도록 돕고 부정적인 사회적 영향을 예측하고 예방하는 전략을 다룬다.

2025년 7월 24일 오전 12시 00분Apple

Vision Language Models을 위한 효율적인 Vision 인코딩인 FastVLM

Vision Language Models은 시각적 이해를 텍스트 입력과 함께 가능케 합니다. FastVLM은 사전 훈련된 시각 인코더에서 시각 토큰을 대규모 언어 모델로 전달하여 구축됩니다. VLM은 시각 인코더의 풍부한 시각적 표현과 LLM의 세계 지식 및 추론 능력을 활용하여 접근성 보조기, UI 탐색, 로봇 공학, 게임 등 다양한 응용 분야에 유용할 수 있습니다.

2025년 7월 23일 오전 12시 00분Apple

Boolformer: 심볼릭 회귀를 위한 논리 함수 및 트랜스포머

Boolformer는 불리언 함수들의 심볼릭 회귀를 수행하는 Transformer 기반 모델로, 훈련 중이 아닌 복잡한 함수에 대한 간결한 공식을 예측할 수 있음을 보여줌. 불완전하거나 잡음이 있는 관측에서도 좋은 근사 표현을 찾을 수 있음을 입증하며, 실제 이진 분류 데이터셋에서 Boolformer를 평가하여 해석 가능한 대안으로의 잠재력을 보여줌.

2025년 7월 21일 오전 12시 00분Apple

사전 학습 데이터가 대상 작업과 일치할 때 언어 모델이 개선됩니다

데이터 선택 방법은 대상을 가지고 있으며, 이를 명시적으로 최적화할 때 어떤 일이 벌어지는지를 탐구하기 위해 벤치마크 대상 순위(BETR) 방법을 제안하고 있다. 이 방법은 벤치마크 학습 예제와 유사성에 기반한 사전 학습 문서를 선택하는 간단한 방법으로, 모델의 성능을 향상시킬 수 있다.

2025년 7월 18일 오전 12시 00분Apple

Apple 인텔리전스 Foundation 언어 모델 기술 보고서 2025

Apple은 Apple 디바이스와 서비스 전반에 걸쳐 사용되는 두 개의 다국어, 다모달 Foundation 언어 모델을 소개합니다. 이 모델들은 Apple 실리콘에 최적화된 약 30억 파라미터의 온디바이스 모델과 Apple의 Private Cloud Compute에서 경쟁력 있는 비용으로 높은 품질을 제공하는 새로운 병렬 트랙 MoE(Mixture-of-Experts) 트랜스포머를 기반으로 합니다.

2025년 7월 17일 오전 12시 00분Apple

블록 희소 벡터를 통한 개인 및 효율적인 집계

이 연구는 두 서버 시스템에서 높은 차원 벡터의 안전한 집계 문제를 재방문하며, 개인 연합 학습에서 그래디언트와 같은 벡터를 집계하는 데 사용되는 Prio와 같은 시스템을 다룬다. 기존 방법은 차원과 통신량을 필요로 하지만, 우리는 차원에 비례하지 않는 효율적인 처리가 가능한 PREAMBLE를 제안한다.

2025년 7월 16일 오전 12시 00분Apple

AXLearn: 이질적 인프라에서 모듈식 대형 모델 훈련

AXLearn은 대규모 심층 학습 모델의 확장 가능하고 고성능의 훈련을 용이하게 하는 제품 심층 학습 시스템이다. 다른 최신 심층 학습 시스템과 비교했을 때, AXLearn은 모듈화와 이질적 하드웨어 인프라 지원에 중점을 둔다. AXLearn의 내부 인터페이스는 엄격한 캡슐화를 따라 소프트웨어 구성 요소 간의 다양한 조합을 용이하게 하여 빠른 모델 개발 및 실험을 가능케 한다.

2025년 7월 14일 오전 12시 00분Apple

Visatronic: 음성 합성을 위한 다중 모달 디코더 전용 모델

다중 입력 데이터를 활용하는 기계 학습 시스템의 능력 향상을 위해 LLMs의 발전이 중요하다. 그러나 기존의 다중 모달 모델은 대부분 사전 훈련된 LLMs 위에 구축되어 다른 모달 간의 시간적 의존성을 정확하게 모델링하는 것을 제한할 수 있다. 이에 LLM 스타일의 다중 모달 디코더 모델에서 텍스트, 비디오, 음성 모달의 정렬을 조사한다.

2025년 7월 14일 오전 12시 00분Apple

ILuvUI: Instruction-Tuned Language-Vision Modeling of UIs from Machine Conversations

이 논문에서는 Multimodal Vision-Language Models (VLMs)을 사용하여 UI 작업에 대한 훈련 데이터 부족 문제를 해결하는 방법을 제시한다. 이를 위해 기존의 이미지-언어 쌍 데이터 생성 방법을 UI 도메인에 적용하여 대화형 예제와 UI를 결합한 데이터셋을 생성한다.

2025년 7월 14일 오전 12시 00분Apple

음성 인식을 위한 차별적 개인정보 보호 페더레이티드 러닝 활성화: 벤치마크, 적응형 옵티마이저, 그리고 그래디언트 클리핑

대규모 트랜스포머 모델을 훈련하는 것에 대한 어려움으로 인해 차별적 개인정보 보호 및 페더레이티드 러닝(FL)이 음성 인식에 적용되는 것은 쉽지 않았다. 이를 해결하기 위해 새로운 벤치마크, 적응형 옵티마이저, 그리고 그래디언트 클리핑을 제안하였다. 이전 연구들은 표준 최적화 기술로 수렴하기 어렵다는 문제에 직면해왔다.

2025년 7월 14일 오전 12시 00분Apple

픽셀 수준 대체로 어휘 제약 극복하기

언어 모델에 어휘 없는 인코더를 추가하여, 텍스트를 픽셀로 렌더링하여 입력 임베딩을 생성하는 방법을 제안함. 영어 중심 언어 모델 실험 결과, 기존의 서브워드 토큰화 방식을 능가하며 기계 번역 성능을 획기적으로 향상시키고 효과적인 다국어 전이를 가능하게 함.

2025년 7월 14일 오전 12시 00분Apple

시뮬레이션 기반 추론에서 데이터 기반 보정을 통한 모델 부정확성 해결

딥 생성 모델링의 지속적인 발전에 이끌리는 시뮬레이션 기반 추론(SBI)은 확률적 시뮬레이터의 매개변수를 추론하는 데 사용되고 있습니다. 하지만 최근 연구에서 모델 부정확성이 SBI의 신뢰성을 훼손할 수 있다는 것을 보여주었습니다. 이 연구는 소량의 실제 세계 보정 데이터를 사용하여 모델 부정확성을 극복하는 Robust Posterior Estimation~(RoPE) 프레임워크를 소개합니다.

2025년 7월 11일 오전 12시 00분Apple

CommVQ: Commutative Vector Quantization를 이용한 KV 캐시 압축

CommVQ는 Commutative Vector Quantization을 제안하여, 긴 문맥을 필요로 하는 대형 언어 모델에서 메모리 사용량을 현저히 줄이는 방법을 제시합니다. 가벡터 양자화를 활용하여 가벡터 캐시를 압축하고, 간단한 행렬 곱셈으로 디코딩할 수 있도록 설계되었습니다.

2025년 7월 11일 오전 12시 00분Apple

새로운 및 다양한 이미지 생성을 위한 Shielded Diffusion

이 연구는 생성 모델이 동일한 프롬프트로 반복해서 이미지를 생성할 때 종종 비슷한 변형을 얻는 문제를 다루며, 기존 이미지와의 다양성을 유지하면서 새로운 이미지를 생성하는 방법을 제안한다. 데이터 기반의 방법을 활용하여 생성된 이미지를 기존 이미지 집합으로부터 멀어지도록 격리시키는 효과적인 방법을 제시한다.

2025년 7월 11일 오전 12시 00분Apple

대상 콘크리트 점수 매칭: 이산 확산을 위한 포괄적인 프레임 워크

본 연구에서는 이산 데이터를 모델링하고 생성하기 위한 유망한 프레임 워크인 이산 확산을 제시한다. 대상 콘크리트 점수 매칭(TCSM)은 이산 확산 모델의 교육과 세부 조정을 위한 혁신적이고 다재다능한 목적을 제시한다. TCSM은 넓은 적용 가능성을 갖는 일반적인 프레임 워크를 제공하며, 다양한 기존 이산 확산 접근 방식을 자연스럽게 다룰 수 있다. 또한, 동일한 TCSM 목적은 이산 확산 모델의 사후 교육까지 확장된다.

2025년 7월 11일 오전 12시 00분Apple

생성형 음성 언어 모델의 자연함 향상을 위한 변분 프레임워크

대형 언어 모델의 성공으로 영감을 받아 음성 모델링에 적용되고 있지만, 음성은 연속적이고 복잡하여 자동 회귀 모델링을 위해 이산화되곤 한다. 자기 지도 모델에서 파생된 음성 토큰은 음성의 언어적 측면에 중점을 두지만 억양 정보를 무시하는 경우가 많다. 이에 따라 이러한 토큰으로 훈련된 모델은 자연함이 감소한 음성을 생성할 수 있다. 기존 접근 방식은 이를 해결하기 위해 음성 토큰에 음높이 특성을 추가하는 것이지만, 음높이만으로는 범위를 완전히 표현할 수 없다.

2025년 7월 11일 오전 12시 00분Apple

LLM이 자신의 내부 답변 분포를 알까?

이 논문은 대규모 언어 모델(LLMs)이 답변에 대해 확신이 없을 때 그것을 나타내야 한다는 불확실성 양자화의 역할을 탐구한다. LLMs의 다양한 출력 공간을 활용하여 불확실성을 설명하는 문자열을 제안한다.

2025년 7월 11일 오전 12시 00분Apple

QuantSpec: 계층 적용된 양자화된 KV 캐시를 사용한 셀프-추론적 디코딩

점점 더 많은 edge 장치에서 대규모 언어 모델이 장기 문맥 설정에 배포되고 있어서, 빠르고 효율적인 장기 문맥 추론이 점점 더 필요해지고 있다. 이 연구에서는 기존 방법들이 효율적인 KV 캐시 최적화 전략을 통해 중요한 속도 향상을 달성하는 데 어려움을 겪고 낮은 수락률을 유발하는 반면, 자가-추론 디코딩을 사용하여 이러한 쟁점을 해결하는 방법을 제시한다.

2025년 7월 11일 오전 12시 00분Apple

3D 장면 이해를 위한 토큰 구조의 영향 연구: 대규모 언어 모델과의 점-3D LLM

3D 장면을 효과적으로 나타내는 것은 중요하지만 어렵다. 이 연구는 비디오 및 포인트 기반 표현을 비교하고 시각적 토큰을 3D 포인트 클라우드 기능으로 보강하는 새로운 방법을 제안한다. 실험 결과는 명시적인 3D 정보를 통합하는 것이 3D 장면 이해에 도움이 된다는 것을 보여준다.

2025년 7월 11일 오전 12시 00분Apple

« 이전 1 2 3 다음 »