'DPO' 태그의 글 목록

LLM 개발 이해를 위한 학습 방법론 접근

LLM 학습 방법론 대규모 LLM을 개발할 때 선택 가능한 방법론들을 아래와 같이 정리했다.학습 방식의 선택은 대규모 언어 모델(LLM) 개발에서 모델 성능, 효율성, 최종 목표 달성 여부를 결정짓는 핵심 요소이다. 잘못된 학습 방식을 선택하는 경우에 비용 및 시간이 막대하게 낭비된다. 예를 들어 전체 모델을 재학습하거나 하는 경우 많은 비용과 시간이 낭비된다. 또한 사전 학습 모델을 사용자 의도나 윤리적 기준에 맞추는 정렬 과정(RLHF, DPO 등)이 부적절한 경우 모델은 유해하거나 부정확한 저품질의 답변을 생성할 수 있다. 특정 도메인이나 작업에 맞춰 연속 사전 학습(CPT)나 미세 조정(Fine-Tuning)을 적절히 적용하지 않으면 모델이 일반적인 지식만 갖춘 채 디테일한 답변을 생성하는 능력이..

IT&Tech 2025.11.23

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

그루부기 사파리(IT&Tech)

DPO 1

티스토리툴바