Feature Encoding
데이터 인코딩Scikit-learn 알고리즘은 수치형 변수만 입력값으로 허용하기 때문에,머신러닝을 위해서는 모든 문자열 데이터를 인코딩하여 수치형으로 변환해야 한다. 일반적으로 문자열 데이터는 범주형 데이터와 텍스트 데이터를 의미하는데,범주형 데이터는 각 범주에 대응하는 수치형 변수로 변환하는 것이 효과적이지만텍스트 데이터는 구분자 역할이거나 추가적인 정보
데이터 인코딩Scikit-learn 알고리즘은 수치형 변수만 입력값으로 허용하기 때문에,머신러닝을 위해서는 모든 문자열 데이터를 인코딩하여 수치형으로 변환해야 한다. 일반적으로 문자열 데이터는 범주형 데이터와 텍스트 데이터를 의미하는데,범주형 데이터는 각 범주에 대응하는 수치형 변수로 변환하는 것이 효과적이지만텍스트 데이터는 구분자 역할이거나 추가적인 정보
정규화 vs 표준화정규화 : 데이터의 범위의 차이를 왜곡하지 않고 공통 척도로 변경하는 것표준화 : 데이터가 표준정규분포의 속성을 갖도록 재조정되는 것 정규화(Normalization) 표준화(Standardization) Scaling에 최대/최소값 사용 Scaling에 평균 및 표준편차 사용 [0,1] 또는 [-1,1] 사이의 값