본문 바로가기
DataScience/머신러닝

머신러닝 :: Linear Regression(선형 회귀식 풀이법, SLE)

by 올커 2023. 3. 20.

머신러닝 :: 3. Linear Regression

Linear  Regression

· 선형회귀(Linear Regression)는 데이터에 가장 잘 맞는(Best Fit) 선을 찾는 것을 말한다.

· 입력값에 대한 출력값이 정해진 지도학습(Supervised Learning)이다.

Best Fit의 의미는 무엇인가?

· 모든 i에 대해서 모델 f(x_i)가 데이터 y_i와 가능한한 가장 가깝게  위치하는 것

· 실 Data와 '차이의 절대값'의 합이 최소가 되는 f(x)를 찾는 것

· Error Function E(w)를 최소화하는 가중치 w를 찾는 것

 

E(w), Error Function을 최소화하는 가중치 W 구하기

· Error Function은  아래와  같이 오차의 제곱(Squared error)으로도 변환할 수 있다.

· 위 식에서 모든 w_i에 대해 각각 편미분을 해서 0을 만드는 지점이 최소값이 된다. 

· 위 식을 통해 d개의 식을 얻을 수 있으며, 변수가 d개이므로 연립방정식을 통해 해를 구할 수 있다.

· 식이 복잡해지므로 아래와 같이 행렬식으로 변환해본다.

· 위의 행렬식 A의 첫번째 행, 열을 살펴보면 x_i0가 1이기 때문에 다른 원소들과 다른 모습을 보인다. 각 원소에 크기가 1인 x_i0를 곱해주어 이를 통일화 시켜줄 수 있다.

· 행렬 A와  b벡터의 원소인 x, y를 활용하기 위해 아래와 같은 행렬 X, Y가 있다고 정의해보자.

· 행렬 X를 전치시킨 전치행렬을 활용하여 아래와 같이 표현할 수 있다.

· 이제 위 식을 이용하면, Input(X value)Output(Y value)데이터만 있다면 활용하여 가중치 W를 구할 수 있다.

Generalized version of Linear Regression

· 선형회귀의 일반화는 기존에 썼던 변수 x를 미리 정의되어 있는 함수 h(x)로 변환하는 것이다. 아래와 같이 상황에 맞추어 적합한 h(x)를 선택하여 적용한다.

  1) Linear Regression

  2) Polynomial Regression (2nd order)

3) Polynomial Regression (3nd order)

4) Polynomial Regression (periodic)

5) Kernel Regression

 

· 이러한 선형회귀  식을 풀때는 앞서 Linear Regression에서 사용했던 방법과 동일하게 Error Function을 최소화하는 가중치를 찾으면 된다.

· k개의 연립방정식은 아래와 같이 행렬식으로 변환해준다.

· 행렬의 원소인 h(x), y를 활용하기 위해 아래와 같은 행렬 H, Y가 있다고 정의해보자.

· 위 식은 아래와 같이 간소화 할 수 있으며, 이를 통해 가중치 W에 대한 식도 정리할 수 있다.

Another Approaches

· 선형 연립방정식을 푸는 것(SLE, Solving Linear Equations)은 선형 회귀를 푸는 가장 간단한 접근이다.

· 선형회귀를 푸는 다른 접근으로는 경사하강법(Gradient Descent Approach), 최대 우도 추정법(Maximum Likelihood Estimation Approach)가 있다.

반응형

댓글