최적화

1 minute read

5장 최적화

5장 최적화에서 다루는 개념 : 컨벡스 셋,아핀 셋, 초평면, 반공간, 컨벡스 함수,헤시안 행렬, 준양정치행렬, 얀센의 부등식, 라그랑주 프리멀 함수, 라그랑주 듀얼 함수, 최소 제곱법, 뉴턴-랩슨 메소드, 선형 회귀, 로지스틱 회귀, 비용 함수, GD, SGD, mini-batch GD, momentum, Nesterov Accelerrated Gradient, Adagrad, Adadelta, RMSprop, Adam,AdaMax, Nadam

머신러닝의 궁극적인 목표는 최적화이다.

머신러닝에서 발생할 수 있는 문제는 다음과 같다.

  1. underfitting 2. slow learning 3. overfitting

이 문제를 해결하기 위한 방법으로 최적화가 쓰인다.

5.1 컨벡스 셋

공간 $\mathbb{R}^n$ 에서의 두 점 $x_1, x_2$를 잇는 선 사이에 있는 점 $x_1, x_2$ 을 아래와 같이 표현한다. $y = wx_1 + (1-w)x_2$
직선 : 시작과 끝 지점이 존재하지 않는다. ($w \in \mathbb{R} $)
선분 : 시작과 끝 지점이 존재한다. ($0 \le w \le 1$)

가중치 $w$의 범위에 따라 직선인지 선분인지 결정된다.

속성 아핀셋(affine set) 컨벡스셋(convex set)
포함 직선($w \in \mathbb{R} $,범위제한없음) 선분($0 \le w \le 1$)
$n$차원 확장(조합) 아핀 조합(affine combination)
$w_1x_1+…+w_nx_n$
조건: $w_1+…+w_n=1$
컨벡스 조합(convex combination)
$w_1x_1+…+w_nx_n$
조건: $w_1+…+w_n=1$, $w_1,…,w_n>1$
    컨벡스 헐: 주어진 점들을 포함하는 컨벡스 셋
  • 아핀 조합은 곧 집합 $C$에 속하는 점들의 선형 결합과 같다.
  • 아핀 셋이면 컨벡스 셋이다.

초평면과 반공간

초평면(hyperplane)서포트 벡터 머신 알고리즘 에서 핵심적인 개념이다. 머신러닝에서 분류,회귀 문제를 풀 때 핵심적인 개념이다. 여러 머신러닝의 목적은 전체 공간을 효율적으로 나눌 수 있는 초평면을 찾는 문제이다.

전체 공간은 초평면에 의해 두 개의 반공간(halfspace)로 나뉜다.

속성 초평면 반공간
집합 ${ \mathbf{x} \mid \mathbf{w}^T\mathbf{x} = \it{b} }$
$\mathbf{w}^T\mathbf{x} = \it{b}$ 를 만족하는 데이터 포인트 $\mathbf{x}$의 집합
$\mathbf{w}$는 $n$차원 가중치 벡터($\mathbf{w} \in \mathbb{R}^n$ )
$b$는 1차원 스칼라값($b \in \mathbb{R}$)
${ \mathbf{w}^T\mathbf{x} \le \it{b}}$
  • 초평면에 의해 나뉜 반공간은 컨벡스 셋이다. 이유는 공간의 제한이 있기 때문이다.

5.2 컨벡스 함수

$f(\rm{w} \mathbf{x_1} + (1-w)\mathbf{x_2}) \le wf\mathbf(x_1) + (1-w)f(\mathbf{x_2})$