데이터셋 D를 모아 원하는 출력 값이 나오도록 함수 $f_\theta$를 근사하자.
Likelihood란?
Gradient Descent
손실함수란?
손실 함수(Loss Function)를 파라미터로 미분하여 파라미터를 점진적으로 업데이트 필요.
Generalization loss를 최소화하는 손실 함수의 입력 파라미터 $\hat\theta$을 얻자.
DNN의 경우, back-propagation을 통해 효율적으로 GD 가능.
Stochastic Gradient Descent(SGD)
Overfitting을 피하는 방법?
학습이 종료되면 가장 낮은 validation loss를 가진 모델의 파라미터를 $\hat\theta$ 으로 삼자.