확률적 분포와 가치 체계의 결합 아키텍처인공지능 정렬은 모델의 목적 함수를 인간의 의도 및 가치 체계와 일치시키는 공학적 프로세스다. 핵심 아키텍처는 보상 모델 학습과 근위 정책 최적화(PPO, Proximal Policy Optimization)**를 골자로 하는 인간 피드백 기반 강화학습(RLHF)을 축으로 한다. 트랜스포머 기반의 거대 언어 모델이 생성하는 광범위한 확률 분포 중 유익성, 진실성, 무해성을 기준으로 유효한 영역을 필터링하고 가중치를 미세 조정하는 기술적 기제로 작동한다.구분사전 학습 (Pre-training)미세 조정 (SFT)정렬 (RLHF)목적데이터 분포 학습특정 태스크 수행인간 의도 부합입력대규모 비정형 데이터레이블된 데이터셋인간 선호도 순위결과다음 토큰 예측 성능명령 이행 능..