staging.mijutoday.com

최신뉴스 전체보기

FACTS 벤치마크 스위트를 활용해 대형 언어 모델의 사실성을 체계적으로 평가하고 있습니다.

2025년 12월 9일 오후 8시 29분Deep Mind

언어 모델은 사용자 지시를 이해하고 따라야 합니다. 저자들은 보상 모델 대신 유연한, 지시별 기준을 제안하며, “체크리스트 피드백에서 강화 학습”을 제안합니다. 이를 통해 강화 학습이 지시 따르기에 미치는 영향을 확대할 수 있습니다.

2025년 8월 22일 오전 12시 00분Apple