학습 곡선
학습 곡선
고차 다항 회귀를 사용하면 보통의 선형 회귀에서보다 훨씬 더 훈련 데이터에 잘 맞추려 할 것이다.
- 데이터가 과대 적합 또는 과소 적합 되었는지 확인하는 방법
- 교차 검증. 훈련 데이터에서 성능이 좋지만 교차 검증 점수가 나쁘면 모델이 과대적합된 것이다. 양쪽 모두 좋지 않다면 과소 적합이다.
- 학습 곡선
예를 들어, 2차항의 경향을 갖는 데이터셋이 있다. 이를 일차 선형 회귀 모델과 10차항 선형 회귀 모델로 학습시킨다.
그리고 각각의 모델의 학습 곡선을 그려보면 다음과 같다. 과소 적합과 과대 적합의 특징을 그래프에서 찾아본다. 만약 데이터셋이 있을 때 그 데이터에 낮은 차수의 선형 회귀와 높은 차수의 선형 회귀를 썼을 때 학습 곡선이 다음과 같은 경향을 띤다면 과소 적합이 되었는지, 과대 적합이 되었는지 파악할 수 있을 것이다.
과소 적합
- 과소 적합일 때 학습 곡선의 특징
- 훈련 세트의 크기가 한, 두개 일 때 훈련 오차가 작지만, 그 이상이 되면 훈련 오차가 갑자기 커진다.
- 훈련 세트의 크기가 커져도 검증 오차와 훈련 오차가 변함없이 높다. 데이터가 훈련 세트에 알맞게 학습되지 않았다는 뜻이다.
- 검증 오차와 훈련 오차의 차이가 크게 없이 수평하고 오차가 높은 값으로 게속 나타난다.
- 해결 방법
- 과소 적합의 문제이기 때문에 모델을 더 복잡한 모델로 바꿔 본다.
- 더 나은 특성을 사용한다.
과대 적합
- 과대 적합일 때 학습 곡선의 특징
- 훈련 세트의 크기가 10정도만 되어도 훈련 오차는 적다. 그러나 훈련 세트의 크기가 커질수록 오차가 커진다. 그래도 훈련 오차가 검증 오차보다는 낮다.
- 훈련 세트의 크기가 작을 때 부터 검증 오차 값이 크다. 그리고 데이터가 그리고 훈련 세트의 크기가 커질수록 오차는 줄어든다.
- 훈련 오차와 검증 오차 간의 사이 공간이 과소 적합에 비해 크다.
- 해결 방법
- 훈련 세트를 더 늘린다. 데이터가 과대 적합되었기 때문에 검증 오차가 훈련 오차에 근접할 때까지 더 많은 훈련데이터를 추가한다.
- 규제 모델을 사용한다.
- 다항 차수를 낮춘다.
편향-분산 트레이드 오프
모델의 복잡도카 커지면 분산이 늘어나고 편향은 줄어든다. 반대로 모델의 복잡도가 줄어들면 편향이 커지고 분산이 줄어든다.
-
편향
- 이유 : 잘못된 가정으로 발생한다. 데이터가 실제로는 2차인데 선형으로 가정한 경우.
- 편향이 클 때 : 과소 적합 발생.
- 쉽게 이해하기 : 편향이 크다는 것은 예측값들이 타깃값들로부터 멀리 떨어져있다.
- 분산
- 이유 : 훈련 데이터에 있는 작은 변동에 모델이 과도하게 민감하기 때문에 발생한다.
- 높은 분산 : 고차 다항 회귀 모델 같이 자유도가 높은 모델이 높은 분산을 갖기 쉽다. 그래서 과대 적합 발생.
- 쉽게 이해하기 : 분산이 높다는 것은, 예측값들이 흩어져있는 정도가 크다는 것이다. 정답과 근사한지는 측정 기준이 아니다.
- 줄일 수 없는 오차
- 이유 : 데이터 자체에 있는 잡음 때문에 발생한다.
- 줄이는 방법 : 오차 제거.