머신러닝 전처리(Preprocessing)의 개념 및 종류

1. 전처리(Preprocessing)

· 넓은 범위의 데이터 정제작업을 뜻한다. 필요없는 데이터를 지우고 필요한 데이터만 남기거나, 비어있는 값(null)이 있는 행을 삭제하는 것, 정규화(Normalization), 표준화(Standardization)등의 많은 작업을 포함하고 있다.

1) 정규화(Normalization)

: 데이터가 0과 1사이의 범위 내에 속하도록 만든다. 같은 특성의 대이터 중 가장 작은 값을 0으로, 가장 큰 값을 1으로 지정하고 이 기준에 따라 나머지 데이터들을 변환한다.

2) 표준화(Standardization)

: 표준화는 데이터 분포를 정규분포로 변환해준다. 즉 데이터의 평균을 0으로 잡고, 표준편차가 1이 되도록 한다.

일단 데이터의 평균을 0으로 잡으면 데이터 중심이 0에 맞춰지게 된다.(Zero-centered) 그리고 표준편차를 1로 만들어주면 데이터가 정규화(Normalized)된다. 이렇게 되면 일반적으로 학습속도(최저점 수렴 속도)가 빠르고 Local minima에 빠질 가능성이 적다.

아래 그림들을 보면 정규화와 표준화를 구분하는데 도움이 된다.

※ 출처: https://www.analyticsvidhya.com/blog/2020/04/feature-scaling-machine-learning-normalization-standardization/

저작자표시 비영리 변경금지

'DataScience > 머신러닝' 카테고리의 다른 글

머신러닝 :: 다항 논리회귀(Logistic Regression)_와인 종류 예측 (0)	2022.10.12
머신러닝 :: 이진 논리회귀(Logistic Regression)_캐글(Kaggle) 타이타닉 생존자 예측 (0)	2022.10.12
머신러닝 :: 머신러닝 모델(SVM, KNN, 의사결정 나무, 랜덤 포레스트) (0)	2022.10.12
머신러닝 :: 논리 회귀(Logistic Regression) 개념 (0)	2022.10.11
머신러닝 :: 캐글(kaggle) 데이터셋을 활용한 선형회귀 실습(2) (0)	2022.10.11

오래도록 진실되게

머신러닝 :: 전처리(Preprocessing)의 개념 및 종류

머신러닝 전처리(Preprocessing)의 개념 및 종류

1. 전처리(Preprocessing)

'DataScience > 머신러닝' 카테고리의 다른 글

댓글

티스토리툴바

머신러닝 :: 전처리(Preprocessing)의 개념 및 종류

머신러닝 전처리(Preprocessing)의 개념 및 종류

1. 전처리(Preprocessing)

'DataScience > 머신러닝' 카테고리의 다른 글

관련글

댓글

티스토리툴바