본문 바로가기
DataScience/머신러닝

머신러닝 :: 전처리(Preprocessing)의 개념 및 종류

by EverReal 2022. 10. 12.

머신러닝 전처리(Preprocessing)의 개념 및 종류


1. 전처리(Preprocessing)

 · 넓은 범위의 데이터 정제작업을 뜻한다. 필요없는 데이터를 지우고 필요한 데이터만 남기거나, 비어있는 값(null)이 있는 행을 삭제하는 것, 정규화(Normalization), 표준화(Standardization)등의 많은 작업을 포함하고 있다.

 

 1) 정규화(Normalization)

  : 데이터가 0과 1사이의 범위 내에 속하도록 만든다. 같은 특성의 대이터 중 가장 작은 값을 0으로, 가장 큰 값을 1으로 지정하고 이 기준에 따라 나머지 데이터들을 변환한다.

 2) 표준화(Standardization)

  : 표준화는 데이터 분포를 정규분포로 변환해준다. 즉 데이터의 평균을 0으로 잡고, 표준편차가 1이 되도록 한다.

    일단 데이터의 평균을 0으로 잡으면 데이터 중심이 0에 맞춰지게 된다.(Zero-centered) 그리고 표준편차를 1로 만들어주면 데이터가 정규화(Normalized)된다. 이렇게 되면 일반적으로 학습속도(최저점 수렴 속도)가 빠르고 Local minima에 빠질 가능성이 적다.

     아래 그림들을 보면 정규화와 표준화를 구분하는데 도움이 된다.

※ 출처: http://cs231n.stanford.edu/2016/
※ 출처: https://www.analyticsvidhya.com/blog/2020/04/feature-scaling-machine-learning-normalization-standardization/

 

반응형

댓글