Regularized Models

1 minute read

규제가 있는 선형 모델

과대적합을 감소시키는 좋은 방법모델을 규제하는 것이다.

릿지 회귀

릿지 회귀ridge 또는 티호노프 회귀는 규제가 추가된 선형 회귀 버전입니다.

릿지 회귀의 비용 함수
$J(\theta) = \mathrm{MSE}(\theta)+\alpha \frac{1}{2}\sum_{i=1}^n {\theta_i}^2$

  • 규제항 $\alpha \sum_{i=1}^n {\theta_i}^2$이 추가되었다.
  • 규제항은 훈련하는 동안에만 비용함수에 추가 된다. 모델의 훈련이 끝나면 모델의 성능을 규제가 없는 성능 지표로 평가된다. -> 훈련하는 동안 사용되는 비용함수와 테스트에서 사용되는 성능 지표는 다르다.
  • $\alpha$ : 모델을 얼마나 많이 규제할지 조절한다.
    • $\alpha = 0$이면 릿지 회귀는 선형 회귀와 같아진다.
    • $\alpha$가 아주 크면 모든 가중치가 거의 0에 가까워지고 결국 데이터의 평균을 지나는 수평선이 된다.

릿지 회귀의 정규방정식
$\hat{\theta}=\left(\mathbf{X}^T\mathbf{X}+\alpha\mathbf{A} \right)^{-1}\mathbf{X}^T\mathbf{y}$

  • 특징 :
    • 릿지 회귀는 입력 특성의 스케일에 민감하기 때문에 수행하기 전에 스케일을 맞춰주는 것이 중요하다.
    • 릿지 회귀를 계산하기 위해 정규방정식을 사용할 수도 있고 경사 하강법을 사용할 수도 있다.
    • 가중치 벡터($\theta_1$ ~ $\theta_n$) 의 $l_2$노름을 쓴다.

라쏘 회귀

라쏘least absolute shrinkage and selection operator회귀는 선형 회귀의 또 다른 규제된 버전이다.

릿지 회귀의 비용 함수
$J(\theta) = \mathrm{MSE}(\theta)+\alpha \frac{1}{2}\sum_{i=1}^n |\theta_i|$

릿지 회귀의 정규방정식
$\hat{\theta}=\left(\mathbf{X}^T\mathbf{X}+\alpha\mathbf{A} \right)^{-1}\mathbf{X}^T\mathbf{y}$

  • 특징:
    • 가중치 벡터($\theta_1$ ~ $\theta_n$) 의 $l_1$노름을 쓴다.
    • 덜 중요한 특성의 가중치를 제거하려고 한다. 차수가 높은 다항 특성의 가중치는 모두 0이 된다. 즉, 자동으로 특성 선택을 하고 희소 모델을 만든다.

    • 라쏘의 비용함수는 $\theta_i=0$에서 미분 가능하지 않는다.

엘라스틱넷

릿지 회귀와 라쏘 회귀를 절충한 모델이다.

엘라스틱넷 비용 함수
$J(\theta) = \mathrm{MSE}(\theta)+r\alpha \frac{1}{2}\sum_{i=1}^n |\theta_i| + \frac{1-r}{2}\alpha\sum_{i=1}^n{\theta_i^2}$

  • r = 0, 릿지 회귀
  • r = 1, 라쏘 회귀

Q. 일반 선형 회귀, 릿지, 라쏘, 엘라스틱 중 어느 것을 써야할까?

어느 정도 규제가 있는 것이 대부분의 경우에 좋으므로 일반적인 선형 회귀는 피해야 한다. 릿지가 기본이 되지만 쓰이는 특성이 몇 개뿐이라고 생각되면 라쏘나 엘라스틱넷이 낫다. 라쏘나 엘라스틱넷은 불필요한 특성의 가중치를 0으로 만들어준다. 특성 수가 훈련 샘플 수보다 많거나 특성 몇 개가 강하게 연관되어 있을 때는 보통 라쏘가 문제를 일으키기 때문에 엘라스틱넷을 선호한다.

조기 종료

경사 하강법과 같은 반복적인 학습 알고리즘을 규제하는 방식은 검증 에러가 최솟값에 도달하면 훈련을 중지시키는 것이다.

  • 확률적 경사 하강법이나 미니배치 경사 하강법에서는 곡선이 그렇게 매끄럽지 않아 최솟값에 도달했는지 확인하기 어려울 수 있다. 한 가지 해결책은 검증 에러가 일정 기간 동안 최솟값보다 클 때, 학습을 멈추고 검증 에러가 최소였을 때의 모델 파라미터로 돌리는 것이다.