Regularized Models

1 minute read

규제가 있는 선형 모델

과대적합을 감소시키는 좋은 방법 은 모델을 규제하는 것이다.

릿지 회귀

릿지 회귀^ridge 또는 티호노프 회귀는 규제가 추가된 선형 회귀 버전입니다.

릿지 회귀의 비용 함수
$J(\theta) = \mathrm{MSE}(\theta)+\alpha \frac{1}{2}\sum_{i=1}^n {\theta_i}^2$

규제항 $\alpha \sum_{i=1}^n {\theta_i}^2$이 추가되었다.
규제항은 훈련하는 동안에만 비용함수에 추가 된다. 모델의 훈련이 끝나면 모델의 성능을 규제가 없는 성능 지표로 평가된다. -> 훈련하는 동안 사용되는 비용함수와 테스트에서 사용되는 성능 지표는 다르다.
$\alpha$ : 모델을 얼마나 많이 규제할지 조절한다.
- $\alpha = 0$이면 릿지 회귀는 선형 회귀와 같아진다.
- $\alpha$가 아주 크면 모든 가중치가 거의 0에 가까워지고 결국 데이터의 평균을 지나는 수평선이 된다.

릿지 회귀의 정규방정식
$\hat{\theta}=\left(\mathbf{X}^T\mathbf{X}+\alpha\mathbf{A} \right)^{-1}\mathbf{X}^T\mathbf{y}$

특징 :
- 릿지 회귀는 입력 특성의 스케일에 민감하기 때문에 수행하기 전에 스케일을 맞춰주는 것이 중요하다.
- 릿지 회귀를 계산하기 위해 정규방정식을 사용할 수도 있고 경사 하강법을 사용할 수도 있다.
- 가중치 벡터($\theta_1$ ~ $\theta_n$) 의 $l_2$노름을 쓴다.

라쏘 회귀

라쏘^{least absolute shrinkage and selection operator}회귀는 선형 회귀의 또 다른 규제된 버전이다.

릿지 회귀의 비용 함수
$J(\theta) = \mathrm{MSE}(\theta)+\alpha \frac{1}{2}\sum_{i=1}^n |\theta_i|$

릿지 회귀의 정규방정식
$\hat{\theta}=\left(\mathbf{X}^T\mathbf{X}+\alpha\mathbf{A} \right)^{-1}\mathbf{X}^T\mathbf{y}$

특징:
- 가중치 벡터($\theta_1$ ~ $\theta_n$) 의 $l_1$노름을 쓴다.
- 덜 중요한 특성의 가중치를 제거하려고 한다. 차수가 높은 다항 특성의 가중치는 모두 0이 된다. 즉, 자동으로 특성 선택을 하고 희소 모델을 만든다.
- 라쏘의 비용함수는 $\theta_i=0$에서 미분 가능하지 않는다.

엘라스틱넷

릿지 회귀와 라쏘 회귀를 절충한 모델이다.

엘라스틱넷 비용 함수
$J(\theta) = \mathrm{MSE}(\theta)+r\alpha \frac{1}{2}\sum_{i=1}^n |\theta_i| + \frac{1-r}{2}\alpha\sum_{i=1}^n{\theta_i^2}$

r = 0, 릿지 회귀
r = 1, 라쏘 회귀

Q. 일반 선형 회귀, 릿지, 라쏘, 엘라스틱 중 어느 것을 써야할까?

어느 정도 규제가 있는 것이 대부분의 경우에 좋으므로 일반적인 선형 회귀는 피해야 한다. 릿지가 기본이 되지만 쓰이는 특성이 몇 개뿐이라고 생각되면 라쏘나 엘라스틱넷이 낫다. 라쏘나 엘라스틱넷은 불필요한 특성의 가중치를 0으로 만들어준다. 특성 수가 훈련 샘플 수보다 많거나 특성 몇 개가 강하게 연관되어 있을 때는 보통 라쏘가 문제를 일으키기 때문에 엘라스틱넷을 선호한다.

조기 종료

경사 하강법과 같은 반복적인 학습 알고리즘을 규제하는 방식은 검증 에러가 최솟값에 도달하면 훈련을 중지시키는 것이다.

확률적 경사 하강법이나 미니배치 경사 하강법에서는 곡선이 그렇게 매끄럽지 않아 최솟값에 도달했는지 확인하기 어려울 수 있다. 한 가지 해결책은 검증 에러가 일정 기간 동안 최솟값보다 클 때, 학습을 멈추고 검증 에러가 최소였을 때의 모델 파라미터로 돌리는 것이다.

Share on

Twitter Facebook LinkedIn

인공지능 대학원 준비생